图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
自从 transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。
这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。再看这篇论文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 赫然在列。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
- 论文标题:Were RNNs All We Needed?
- 论文地址:https://arxiv.org/pdf/2410.01201v1
最近,大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣,出现了一大批有关成果,其中 Mamba 的成功引爆了 AI 圈,更是点燃了大家的研究热情。Bengio 和他的研究团队发现,这些新的序列模型有很多共同点,于是他们重新审视了 LSTM 和 GRU 这两种经典 RNN 模型。结果发现,精简掉其中的隐藏状态依赖之后,不再需要基于时间反向传播的 LSTM 和 GRU 的表现就能和 Transformer 打个平手。LSTM 和 GRU 仅能顺序处理信息,并且在训练时依赖反向传播,这使得它们在处理大量数据时速度缓慢,最终被淘汰。基于以上发现,他们进一步简化了 LSTM 和 GRU,去掉了它们对输出范围的限制,并确
保它们的输出在时间上是独立的,进而得到了 minLSTM 和 minGRU。相比传统 RNN,它们不仅训练时所需的参数显著减少,还可以并行训练,比如上下文长度为 512 时,速度能提升 175 倍。这其实也是 Bengio 长期关注 RNN 的系列研究成果。在今年五月,Bengio 及其研究团队和加拿大皇家银行 AI 研究所 Borealis AI 合作发布了一篇名为《Attention as an RNN》的论文。正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公式的模块 Aaren,不仅可以像 Transformer 一样并行训练,还可以像 RNN 一样高效更新。更多详情,可以参见本站之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可通过并行扫描进行训练。在此基础上,研究者进一步简化了这些 RNN,消除了它们对输出范围的限制(即 tanh),并确保输出在规模上与时间无关。综合上述步骤,研究者提出了 GRUs 和 LSTMs 的最小版本(minGRUs 和 minLSTMs),它们可通过并行扫描进行训练,且性能可与 Transformers 和最近提出的序列方法相媲美。研究者结合了两个简化步骤,得到了一个极简版的 GRU(minGRU)。
由此产生的模型比原始 GRU 效率大大提高,只需要 个参数,而不是 GRU 的 个参数(其中 d_x 和 d_h 分别对应于 x_t 和 h_t 的大小)。在训练方面,minGRU 可以使用并行扫描算法进行并行训练,从而大大加快训练速度。在实验部分,研究者展示了在 T4 GPU 上,当序列长度为 512 时,训练步骤的速度提高了 175 倍。参数效率的提高也非常显著。通常,在 RNN 中会进行状态扩展(即 ,其中 α ≥ 1),使模型更容易从输入中学习特征。研究者结合了三个简化步骤,得到 LSTM 的最小版本(minLSTM):
与 LSTM 的 相比,最小版本(minLSTM)的效率明显更高,只需要 个参数。此外,minLSTM 可以使用并行扫描算法进行并行训练,大大加快了训练速度。例如,在 T4 GPU 上,对于长度为 512 的序列,minLSTM 比 LSTM 加快了 235 倍。在参数效率方面,当 α = 1、2、3 或 4(其中 )时,与 LSTM 相比,minLSTM 仅使用了 38%、25%、19% 或 15% 的参数。在本节中,研究者将对最小版本(minLSTMs 和 minGRUs)与传统版本(LSTMs 和 GRUs)以及现代序列模型进行了比较。在测试时,循环序列模型会按顺序推出,从而使其推理更为高效。相反,传统 RNN 的瓶颈在于其训练,需要线性训练时间(通过时间反向传播),这导致其最终被淘汰。人们对循环序列模型重新产生兴趣,是因为许多新的架构可以高效地进行并行训练。研究者对比了训练传统 RNN(LSTM 和 GRU)、它们的最小版本(minLSTM 和 minGRU)以及一种最新的序列模型所需的资源,还特别将重点放在与最近大受欢迎的 Mamba 的比较上。实验考虑了 64 的批大小,并改变了序列长度。研究者测量了通过模型执行前向传递、计算损失和通过后向传递计算梯度的总运行时间和内存复杂度。运行时间。在运行时间方面(见图 1(左)),简化版 LSTM 和 GRU(minLSTM 和 minGRU)Mamba 的运行时间相近。对 100 次运行进行平均,序列长度为 512 的 minLSTM、minGRU 和 Mamba 的运行时间分别为 2.97、2.72 和 2.71 毫秒。对于长度为 4096 的序列,运行时间分别为 3.41、3.25 和 3.15 毫秒。相比之下,传统的 RNN 对应程序(LSTM 和 GRU)所需的运行时间与序列长度成线性关系。对于 512 的序列长度,在 T4 GPU 上,minGRUs 和 minLSTMs 每个训练步骤的速度分别比 GRUs 和 LSTMs 快 175 倍和 235 倍(见图 1(中))。随着序列长度的增加,minGRUs 和 minLSTMs 的改进更为显著,在序列长度为 4096 时,minGRUs 和 minLSTMs 的速度分别提高了 1324 倍和 1361 倍。因此,在 minGRU 需要一天才能完成固定数量的 epoch 训练的情况下,其传统对应的 GRU 可能需要 3 年多的时间。
内存。通过利用并行扫描算法高效地并行计算输出,minGRU、minLSTM 和 Mamba 创建了一个更大的计算图,因此与传统的 RNN 相比需要更多内存(见图 1(右))。与传统的 RNN 相比,最小变体(minGRU 和 minLSTM)多用了 88% 的内存。与 minGRU 相比,Mamba 多用了 56% 的内存。但实际上,运行时间是训练 RNN 的瓶颈。删除 的效果。最初的 LSTM 和 GRU 使用输入 x_t 和之前的隐藏状态 计算各种门电路。这些模型利用其与时间依赖的门来学习复杂函数。然而,minLSTM 和 minGRU 的训练效率是通过放弃门对之前隐藏状态 的依赖性来实现的。因此,minLSTM 和 minGRU 的门仅与输入 x_t 依赖,从而产生了更简单的循环模块。因此,由单层 minLSTM 或 minGRU 组成的模型的栅极是与时间无关的,因为其条件是与时间无关的输入 。然而,在深度学习中,模型是通过堆叠模块构建的。虽然第一层的输入 与时间无关,但其输出 与时间有关,并被用作第二层的输入,即 。因此,从第二层开始,minLSTM 和 minGRU 的门也将随时间变化,从而建立更复杂的函数模型。表 1 比较了不同层数的模型在 Mamba 论文中的选择性复制任务上的表现。可以立即看出时间依赖性的影响:将层数增加到 2 层或更多,模型的性能就会大幅提高。
训练稳定性。层数的另一个影响是稳定性增强,随着层数的增加,准确率的差异减小(见表 1)。此外,虽然 minLSTM 和 minGRU 都能解决选择性复制任务,但可以看到 minGRU 是一种经验上比 minLSTM 更稳定的方法,它能以更高的一致性和更低的方差解决该任务。在训练过程中,这两组参数的调整方向不同,使得比率更难控制和优化。相比之下,minGRU 的信息丢弃和添加由单组参数(更新门)控制,因此更容易优化。Minimal LSTMs 和 GRUs 表现良好上述内容展示了简化传统 RNN 所带来的显著效率提升。这部分将探讨最小版本的 LSTM 和 GRU 与几种流行的序列模型相比的经验性能。选择性复制。此处考虑 Mamba 论文中的长序列选择性复制任务。与最初的复制任务不同,选择性复制任务的输入元素相对于输出元素是随机间隔的,这增加了任务的难度。为了解决这个任务,模型需要进行内容感知推理,记忆依赖的 token 并过滤掉不依赖的 token。表 2 将简化版的 LSTM 和 GRU(minLSTM 和 minGRU)与可以并行训练的著名循环序列模型进行了比较:S4、H3、Hyena 和 Mamba (S6)。这些基线的结果引自 Mamba 论文。在所有这些基线中,只有 Mamba 论文中的 S6 能够解决这一任务。minGRU 和 minLSTM 也能解决选择性复制任务,其性能与 S6 相当,并优于所有其他基线。LSTM 和 GRU 利用内容感知门控机制,使得这些最小版本足以解决许多热门序列模型无法解决的这一任务。
强化学习。接下来,研究者讨论了 D4RL 基准中的 MuJoCo 运动任务。具体来说考虑了三种环境:HalfCheetah、Hopper 和 Walker。对于每种环境,模型都在三种不同数据质量的数据集上进行训练:中等数据集(M)、中等游戏数据集(M-R)和中等专家数据集(M-E)。表 3 将 minLSTM 和 minGRU 与各种 Decision Transformer 变体进行了比较,包括原始 Decision Transformer (DT)、Decision S4 (DS4)、Decision Mamba 和(Decision)Aaren。minLSTM 和 minGRU 的性能优于 Decision S4,与 Decision Transformer、Aaren 和 Mamba 相比也不遑多让。与其他循环方法不同,Decision S4 是一种循环转换不感知输入的模型,这影响了其性能。从 3 × 3 = 9 个数据集的平均得分来看,minLSTM 和 minGRU 优于所有基线方法,只有 Decision Mamba 的差距很小。
语言建模。研究者使用 nanoGPT 框架对莎士比亚作品进行字符级 GPT 训练。图 2 用交叉熵损失绘制了学习曲线,将所提出的最小 LSTM 和 GRU(minLSTM 和 minGRU)与 Mamba 和 Transformers 进行了比较。结果发现,minGRU、minLSTM、Mamba 和 Transformers 的测试损失相当,分别为 1.548、1.555、1.575 和 1.547。Mamba 的表现略逊于其他模型,但训练速度更快,尤其是在早期阶段,在 400 步时达到最佳表现,而 minGRU 和 minLSTM 则分别持续训练到 575 步和 625 步。相比之下,Transformers 的训练速度明显较慢,需要比 minGRU 多 2000 步(∼ 2.5 倍)的训练步骤才能达到与 minGRU 相当的性能,这使得它的训练速度明显更慢,资源消耗也更大(与 minGRU、minLSTM 和 Mamba 的线性复杂度相比,Transformers 的复杂度为二次方)。
# gpt
# 见图
# 还可以
# 是一种
# 这一
# 相比之下
# 层数
# 分别为
# 进行了
# 所需
# 长度为
# 架构
# https
# transformer
# gru
# lstm
# rnn
# 算法
# 堆
# 循环
# Token
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI女友:时尚穿搭与美丽瞬间的完美融合
斑马AI怎样调整语音播报速度_斑马AI语速设置与发音风格选择【攻略】
即梦ai能否生成3D建模参考图_即梦ai3D参考图生成与视角设置【方法】
Kling AI 2.5 Turbo:视频生成领域的颠覆者,深度评测与对比
批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】
QRCODE.AI深度评测:AI驱动的二维码生成器优缺点分析
OpenAI Sora 2:AI视频生成新纪元
Depseek怎样写产品描述提示词_Depseek产品文案提示词技巧【技巧】
Vizeo AI视频生成器:无需技术,轻松打造营销利器
豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口
AI学习秘籍:3个高效黑科技,解锁智能学习新时代
YOU.com AI搜索引擎:Python代码示例及使用指南
Quizlet AI:学生提分神器,告别传统学习方式,效率倍增
10平米房间设计终极挑战:人类 vs AI,DIY极简主义胜出!
微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】
豆包AI能否生成领导汇报版总结_豆包AI汇报版精简与结构调整【教程】
Foocus:免费AI图像生成器终极指南及 OnlyFans 替代方案
零成本AI营销机构:2025年自动化运营,颠覆传统营销模式
AI音频增强和视频背景替换终极指南
Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】
AI 时代高效开发:版本控制与 AI 协同工作流
Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】
打造AI Jarvis:停止功能、联网、中文与人脸集成
AI邮件营销风险解析:如何规避客户触达的潜在陷阱
雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】
通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】
告别噪音:使用Adobe Podcast提升录音质量
豆包AI怎么关闭消息推送_通知与提醒管理设置教程
探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌
豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程
打造迷人外表:AI技术揭秘面部美学比例与颜值提升
秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】
Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本
Sora 2 API 全面解析:功能、应用与 Lovable 集成指南
百度AI搜索能否查实时新闻_百度AI搜索新闻频道与更新频率【方法】
AI聊天机器人:朋友还是谄媚者?深度解析与实用建议
通义千问怎么设置功能偏好_通义千问偏好设置【教程】
智谱清言分析数据怎么用_智谱清言分析数据使用方法详细指南【教程】
FundView贷款管理:贷款汇总生成器提升效率
Feelin网页版在线玩 Feelin角色扮演网页版入口
AI在软件测试中的应用:提升效率与质量的关键策略
TopMedi AI:AI语音克隆和文本转语音终极指南
使用 DeepSeek 生成符合工业标准的 API 文档
探索未来:AI机器人AURORA揭秘亚特兰蒂斯之谜
豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】
AI简历泛滥:虚假技能与企业衰落的深度剖析
Wrike:AI赋能的项目管理平台,提升电商效率与团队协作
电脑硬件升级指南:旧电脑的回收利用与性能提升
Thesis AI:一键生成高质量学术论文的秘密武器
利用 Google AI 进行图像元数据分析与整理
2024-10-14