图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?


自从 transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。

这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。

再看这篇论文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 赫然在列。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文标题:Were RNNs All We Needed?
  • 论文地址:https://arxiv.org/pdf/2410.01201v1

最近,大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣,出现了一大批有关成果,其中 Mamba 的成功引爆了 AI 圈,更是点燃了大家的研究热情。

Bengio 和他的研究团队发现,这些新的序列模型有很多共同点,于是他们重新审视了 LSTM 和 GRU 这两种经典 RNN 模型。

结果发现,精简掉其中的隐藏状态依赖之后,不再需要基于时间反向传播的 LSTM 和 GRU 的表现就能和 Transformer 打个平手。

LSTM 和 GRU 仅能顺序处理信息,并且在训练时依赖反向传播,这使得它们在处理大量数据时速度缓慢,最终被淘汰。

基于以上发现,他们进一步简化了 LSTM 和 GRU,去掉了它们对输出范围的限制,并确保它们的输出在时间上是独立的,进而得到了 minLSTM 和 minGRU。

相比传统 RNN,它们不仅训练时所需的参数显著减少,还可以并行训练,比如上下文长度为 512 时,速度能提升 175 倍。

这其实也是 Bengio 长期关注 RNN 的系列研究成果。在今年五月,Bengio 及其研究团队和加拿大皇家银行 AI 研究所 Borealis AI 合作发布了一篇名为《Attention as an RNN》的论文。

正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公式的模块 Aaren,不仅可以像 Transformer 一样并行训练,还可以像 RNN 一样高效更新。

更多详情,可以参见本站之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》

简化 LSTM 和 GRU

在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可通过并行扫描进行训练。

在此基础上,研究者进一步简化了这些 RNN,消除了它们对输出范围的限制(即 tanh),并确保输出在规模上与时间无关。

综合上述步骤,研究者提出了 GRUs 和 LSTMs 的最小版本(minGRUs 和 minLSTMs),它们可通过并行扫描进行训练,且性能可与 Transformers 和最近提出的序列方法相媲美。

minGRU

研究者结合了两个简化步骤,得到了一个极简版的 GRU(minGRU)。

由此产生的模型比原始 GRU 效率大大提高,只需要  个参数,而不是 GRU 的  个参数(其中 d_x 和 d_h 分别对应于 x_t 和 h_t 的大小)。在训练方面,minGRU 可以使用并行扫描算法进行并行训练,从而大大加快训练速度。

在实验部分,研究者展示了在 T4 GPU 上,当序列长度为 512 时,训练步骤的速度提高了 175 倍。参数效率的提高也非常显著。通常,在 RNN 中会进行状态扩展(即  ,其中 α ≥ 1),使模型更容易从输入中学习特征。

minLSTM

研究者结合了三个简化步骤,得到 LSTM 的最小版本(minLSTM):

与 LSTM 的  相比,最小版本(minLSTM)的效率明显更高,只需要  个参数。此外,minLSTM 可以使用并行扫描算法进行并行训练,大大加快了训练速度。例如,在 T4 GPU 上,对于长度为 512 的序列,minLSTM 比 LSTM 加快了 235 倍。在参数效率方面,当 α = 1、2、3 或 4(其中 )时,与 LSTM 相比,minLSTM 仅使用了 38%、25%、19% 或 15% 的参数。

Were RNNs All We Needed?

在本节中,研究者将对最小版本(minLSTMs 和 minGRUs)与传统版本(LSTMs 和 GRUs)以及现代序列模型进行了比较。

Minimal LSTMs 和 GRU 非常高效

在测试时,循环序列模型会按顺序推出,从而使其推理更为高效。相反,传统 RNN 的瓶颈在于其训练,需要线性训练时间(通过时间反向传播),这导致其最终被淘汰。人们对循环序列模型重新产生兴趣,是因为许多新的架构可以高效地进行并行训练。

研究者对比了训练传统 RNN(LSTM 和 GRU)、它们的最小版本(minLSTM 和 minGRU)以及一种最新的序列模型所需的资源,还特别将重点放在与最近大受欢迎的 Mamba 的比较上。实验考虑了 64 的批大小,并改变了序列长度。研究者测量了通过模型执行前向传递、计算损失和通过后向传递计算梯度的总运行时间和内存复杂度。

运行时间。在运行时间方面(见图 1(左)),简化版 LSTM 和 GRU(minLSTM 和 minGRU)Mamba 的运行时间相近。对 100 次运行进行平均,序列长度为 512 的 minLSTM、minGRU 和 Mamba 的运行时间分别为 2.97、2.72 和 2.71 毫秒。

对于长度为 4096 的序列,运行时间分别为 3.41、3.25 和 3.15 毫秒。相比之下,传统的 RNN 对应程序(LSTM 和 GRU)所需的运行时间与序列长度成线性关系。对于 512 的序列长度,在 T4 GPU 上,minGRUs 和 minLSTMs 每个训练步骤的速度分别比 GRUs 和 LSTMs 快 175 倍和 235 倍(见图 1(中))。随着序列长度的增加,minGRUs 和 minLSTMs 的改进更为显著,在序列长度为 4096 时,minGRUs 和 minLSTMs 的速度分别提高了 1324 倍和 1361 倍。因此,在 minGRU 需要一天才能完成固定数量的 epoch 训练的情况下,其传统对应的 GRU 可能需要 3 年多的时间。

内存。通过利用并行扫描算法高效地并行计算输出,minGRU、minLSTM 和 Mamba 创建了一个更大的计算图,因此与传统的 RNN 相比需要更多内存(见图 1(右))。与传统的 RNN 相比,最小变体(minGRU 和 minLSTM)多用了 88% 的内存。与 minGRU 相比,Mamba 多用了 56% 的内存。但实际上,运行时间是训练 RNN 的瓶颈。

删除  的效果。最初的 LSTM 和 GRU 使用输入 x_t 和之前的隐藏状态 计算各种门电路。这些模型利用其与时间依赖的门来学习复杂函数。然而,minLSTM 和 minGRU 的训练效率是通过放弃门对之前隐藏状态  的依赖性来实现的。因此,minLSTM 和 minGRU 的门仅与输入 x_t 依赖,从而产生了更简单的循环模块。因此,由单层 minLSTM 或 minGRU 组成的模型的栅极是与时间无关的,因为其条件是与时间无关的输入 。

然而,在深度学习中,模型是通过堆叠模块构建的。虽然第一层的输入 与时间无关,但其输出 与时间有关,并被用作第二层的输入,即 。因此,从第二层开始,minLSTM 和 minGRU 的门也将随时间变化,从而建立更复杂的函数模型。表 1 比较了不同层数的模型在 Mamba 论文中的选择性复制任务上的表现。可以立即看出时间依赖性的影响:将层数增加到 2 层或更多,模型的性能就会大幅提高。

训练稳定性。层数的另一个影响是稳定性增强,随着层数的增加,准确率的差异减小(见表 1)。此外,虽然 minLSTM 和 minGRU 都能解决选择性复制任务,但可以看到 minGRU 是一种经验上比 minLSTM 更稳定的方法,它能以更高的一致性和更低的方差解决该任务。在训练过程中,这两组参数的调整方向不同,使得比率更难控制和优化。相比之下,minGRU 的信息丢弃和添加由单组参数(更新门)控制,因此更容易优化。

Minimal LSTMs 和 GRUs 表现良好

上述内容展示了简化传统 RNN 所带来的显著效率提升。这部分将探讨最小版本的 LSTM 和 GRU 与几种流行的序列模型相比的经验性能。

选择性复制。此处考虑 Mamba 论文中的长序列选择性复制任务。与最初的复制任务不同,选择性复制任务的输入元素相对于输出元素是随机间隔的,这增加了任务的难度。为了解决这个任务,模型需要进行内容感知推理,记忆依赖的 token 并过滤掉不依赖的 token。

表 2 将简化版的 LSTM 和 GRU(minLSTM 和 minGRU)与可以并行训练的著名循环序列模型进行了比较:S4、H3、Hyena 和 Mamba (S6)。这些基线的结果引自 Mamba 论文。在所有这些基线中,只有 Mamba 论文中的 S6 能够解决这一任务。minGRU 和 minLSTM 也能解决选择性复制任务,其性能与 S6 相当,并优于所有其他基线。LSTM 和 GRU 利用内容感知门控机制,使得这些最小版本足以解决许多热门序列模型无法解决的这一任务。

强化学习。接下来,研究者讨论了 D4RL 基准中的 MuJoCo 运动任务。具体来说考虑了三种环境:HalfCheetah、Hopper 和 Walker。对于每种环境,模型都在三种不同数据质量的数据集上进行训练:中等数据集(M)、中等游戏数据集(M-R)和中等专家数据集(M-E)。

表 3 将 minLSTM 和 minGRU 与各种 Decision Transformer 变体进行了比较,包括原始 Decision Transformer (DT)、Decision S4 (DS4)、Decision Mamba 和(Decision)Aaren。minLSTM 和 minGRU 的性能优于 Decision S4,与 Decision Transformer、Aaren 和 Mamba 相比也不遑多让。与其他循环方法不同,Decision S4 是一种循环转换不感知输入的模型,这影响了其性能。从 3 × 3 = 9 个数据集的平均得分来看,minLSTM 和 minGRU 优于所有基线方法,只有 Decision Mamba 的差距很小。

语言建模。研究者使用 nanoGPT 框架对莎士比亚作品进行字符级 GPT 训练。图 2 用交叉熵损失绘制了学习曲线,将所提出的最小 LSTM 和 GRU(minLSTM 和 minGRU)与 Mamba 和 Transformers 进行了比较。结果发现,minGRU、minLSTM、Mamba 和 Transformers 的测试损失相当,分别为 1.548、1.555、1.575 和 1.547。Mamba 的表现略逊于其他模型,但训练速度更快,尤其是在早期阶段,在 400 步时达到最佳表现,而 minGRU 和 minLSTM 则分别持续训练到 575 步和 625 步。相比之下,Transformers 的训练速度明显较慢,需要比 minGRU 多 2000 步(∼ 2.5 倍)的训练步骤才能达到与 minGRU 相当的性能,这使得它的训练速度明显更慢,资源消耗也更大(与 minGRU、minLSTM 和 Mamba 的线性复杂度相比,Transformers 的复杂度为二次方)。

更多研究细节,可参考原论文。


# gpt  # 见图  # 还可以  # 是一种  # 这一  # 相比之下  # 层数  # 分别为  # 进行了  # 所需  # 长度为  # 架构  # https  # transformer  # gru  # lstm  # rnn  # 算法  #   # 循环  # Token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI女友:时尚穿搭与美丽瞬间的完美融合  斑马AI怎样调整语音播报速度_斑马AI语速设置与发音风格选择【攻略】  即梦ai能否生成3D建模参考图_即梦ai3D参考图生成与视角设置【方法】  Kling AI 2.5 Turbo:视频生成领域的颠覆者,深度评测与对比  批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】  QRCODE.AI深度评测:AI驱动的二维码生成器优缺点分析  OpenAI Sora 2:AI视频生成新纪元  Depseek怎样写产品描述提示词_Depseek产品文案提示词技巧【技巧】  Vizeo AI视频生成器:无需技术,轻松打造营销利器  豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口  AI学习秘籍:3个高效黑科技,解锁智能学习新时代  YOU.com AI搜索引擎:Python代码示例及使用指南  Quizlet AI:学生提分神器,告别传统学习方式,效率倍增  10平米房间设计终极挑战:人类 vs AI,DIY极简主义胜出!  微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】  豆包AI能否生成领导汇报版总结_豆包AI汇报版精简与结构调整【教程】  Foocus:免费AI图像生成器终极指南及 OnlyFans 替代方案  零成本AI营销机构:2025年自动化运营,颠覆传统营销模式  AI音频增强和视频背景替换终极指南  Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】  AI 时代高效开发:版本控制与 AI 协同工作流  Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】  打造AI Jarvis:停止功能、联网、中文与人脸集成  AI邮件营销风险解析:如何规避客户触达的潜在陷阱  雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】  通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】  告别噪音:使用Adobe Podcast提升录音质量  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程  打造迷人外表:AI技术揭秘面部美学比例与颜值提升  秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】  Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本  Sora 2 API 全面解析:功能、应用与 Lovable 集成指南  百度AI搜索能否查实时新闻_百度AI搜索新闻频道与更新频率【方法】  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  智谱清言分析数据怎么用_智谱清言分析数据使用方法详细指南【教程】  FundView贷款管理:贷款汇总生成器提升效率  Feelin网页版在线玩 Feelin角色扮演网页版入口  AI在软件测试中的应用:提升效率与质量的关键策略  TopMedi AI:AI语音克隆和文本转语音终极指南  使用 DeepSeek 生成符合工业标准的 API 文档  探索未来:AI机器人AURORA揭秘亚特兰蒂斯之谜  豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】  AI简历泛滥:虚假技能与企业衰落的深度剖析  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  电脑硬件升级指南:旧电脑的回收利用与性能提升  Thesis AI:一键生成高质量学术论文的秘密武器  利用 Google AI 进行图像元数据分析与整理 

 2024-10-14

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.