新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由 Salesforce、新加坡国立大学、香港科技大学(广州)共同完成。其中,第一作者柳旭是 Salesforce 亚洲研究院实习生、新加坡国立大学计算机学院四年级博士生。通讯作者刘成昊是 Salesforce 亚洲研究院高级科学家。该工作的短文版本已被 NeurIPS 2025 Workshop on Time Series in the Age of Large Models 接收。

时间序列预测是人类理解物理世界变化的重要一环。自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。目前虽然有不少基础模型已经提出,但如何有效地在高度多样化的时序数据上训练基础模型仍是一个开放问题。

近期,来自 Salesforce、新加坡国立大学、香港科技大学(广州)的研究者以模型专家化这一全新视角作为抓手,设计并提出了下一代时序预测基础模型 Moirai-MoE。该模型将模型专业化设计在 token 这一细粒度运行,并且以完全自动的数据驱动模式对其赋能。模型性能方面,不同于仅在少量数据集上进行评估的已有时序基础模型,Moirai-MoE 在一共 39 个数据集上进行了广泛评估,充分验证了其优越性。

  • 论文标题:Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts

  • 论文地址:https://arxiv.org/abs/2410.10469

  • 代码仓库:https://github.com/SalesforceAIResearch/uni2ts

研究动机

训练通用基础模型的一大挑战在于适应时间序列数据的高度异质性,这种时序数据的独特特性凸显了设计专业化模块的必要性。现有的解决方案主要分为两种。第一种是通过基于语言的提示来识别数据源,从而实现非常粗粒度的数据集级别模型专业化。第二种方案利用了时序数据的频率这一元特征实现了更细粒度的专业化:该方法为特定频率设计单独的输入 / 输出投影层,从而实现特定频率的模型专业化。

作者认为,这种人为强加的频率级专业化缺乏普适性,并引入了一些局限性。(1)频率并不总是一个可靠的指标,无法有效地捕捉时序数据的真实结构。如下图所示,具有不同频率的时间序列可以表现出相似的模式,而具有相同频率的时间序列可能显示出多样且不相关的模式。这种人为强加的频率和模式之间的不匹配削弱了模型专业化的有效性,从而导致性能下降。(2)现实世界的时间序列本质上是非平稳的,即使在单个时间序列的短窗口内也会显示出不同的分布。显然,频率级专业化的粒度无法捕捉这种程度的多样性,这凸显了对更细粒度的建模方法的需求。

为了解决上述问题,作者提出了全新的时间序列统一训练解决方案 Moirai-MoE,其核心思想是利用单个输入 / 输出投影层,同时将各种时间序列模式的建模委托给 Transformer 层中的稀疏混合专家。通过这些设计,Moirai-MoE 的专业化以数据驱动的方式实现,并在 token 级别运行。

基于稀疏混合专家的时序基础模型

Moirai-MoE 构建在它的前序工作 Moirai 之上。虽然 Moirai-MoE 继承了 Moirai 的许多优点,但其主要改进在于:Moirai-MoE 不使用多个启发式定义的输入 / 输出投影层来对具有不同频率的时间序列进行建模,而是使用单个输入 / 输出投影层,同时将捕获不同时间序列模式的任务委托给 Transformer 中的稀疏混合专家。此外,Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数,并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块。

1. 时序 Token 构造

Moirai-MoE 采用切块(patching)技术将时间序列输入切成没有重叠的小块,而后对小块进行标准化来缓解分布迁移的问题。为了在自回归模型中获取准确、鲁棒的标准化统计值,作者引入掩蔽率 r 作为超参数,它指定整个序列中专门用于正则化器计算的部分,不对这些 patch 计算预测损失。最后,一个输入投影层来负责把 patch 投影到和 Transformer 一样的维度,生成时序 token。

2. 稀疏混合专家 Transformer

通过用 MoE 层替换 Transformer 的每个 FFN 来建立专家混合层。该 MoE 层由 M 个专家网络和一个门控函数 G 组成。每个 token 只激活一个专家子集,从而允许专家专注于不同模式的时间序列数据并确保计算效率。在 Moirai-MoE 中,作者探索了不同的门控函数。首先使用的是最流行的线性投影门控函数,它通过一个线性层来生成专家子集的分配结果。此外,作者提出了一种新的门控机制,利用从预训练模型的 token 表示中得出的聚类中心来指导专家分配。这一方法的动机是,与随机初始化的线性投影层相比,预训练 token 表示的聚类更接近数据的真实分布,可以更有效地实现模型专业化。

3. 训练目标

为了同时支持点预测和概率预测两种预测模式,Moirai-MoE 的训练目标设定为优化未来混合分布的对数似然函数。

实验效果

作者在 39 个数据集上的进行了广泛测试评估来验证 Moirai-MoE 的有效性。
上图展示了在 Monash 基准中 29 个数据集上进行的分布内预测评估。结果表明,Moirai-MoE 击败了所有竞争对手。相比前序工作 Moirai,Moirai-MoE 的提升幅度达到了 19%。与 Moirai 无法超越的基础模型 Chronos 相比,Moirai-MoE 成功弥补了差距,并相比它少 65 倍激活参数,这带来了巨大的推理速度的优势。
上表展示了在零样本预测设定时,Moirai-MoE 在 10 个数据集上的点预测和概率预测的表现。Moirai-MoE-Base 取得了最佳的零样本性能,甚至超越了 Google 的 TimesFM 和 Amazon 的 Chronos(他们在预训练语料库中已包含了部分评估数据,因此存在数据泄露)。与所有规模的 Moirai 相比,Moirai-MoE-Small 在 CRPS 方面提高了 3%-14%,在 MASE 方面提高了 8%-16%。考虑到 Moirai-MoE-Small 只有 11M 激活参数(比 Moirai-Large 少 28 倍),这些进步是非常显著的。
在这篇研究中,作者还对时序 MoE 基础模型的内部工作机制进行了首次探索。上图是对 Moirai-MoE 的专家分配分布进行的可视化。基于此,作者总结了以下观点:

1. 在浅层中,不同频率的数据在专家选择的分布上呈现多样化。随着层数的加深,模型将重点转移到更通用的时间依赖性,例如更广泛的趋势和长期模式,这些依赖性可以在不同频率之间共享。到最后一层(第 6 层),专家分配在所有频率上变得几乎相同,表明模型已将时间序列抽象为与频率基本无关的高级表示。这一证据表明 Moirai-MoE 学习到了频率不变的隐层表示,这对于模型泛化至关重要。

2. 随着层数增加专家选择逐渐收敛的行为与 Large Language Models 中观察到的模式完全相反。这种分歧可能源于时间序列 token 的动态和噪声特性,它们是由小时间窗口生成的,不像从固定词汇表中派生的语言 token。研究结果表明,随着层数增加,模型实际上是在进行逐步去噪过程。这一观察结果与 GPT4TS 的结论一致:随着层深度增加,token 会被投影到输入的低维顶部特征向量空间中。

更多实验结果,可参考原论文。


# 门控  # 香港  # 有效地  # 亚洲  # 层数  # 两种  # 进行了  # 提出了  # 新加坡  # 这一  # git  # Foundation  # https  # transformer  # github  # 委托  # 继承  # Token  # 邮箱  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI猴子视频制作终极指南:从入门到网红,轻松上手!  批改网AI检测工具怎样优化检测精度_批改网AI检测工具精度调节与模型选择【实操】  Notion AI整理笔记怎么用_Notion AI整理笔记使用方法详细指南【教程】  AI 3D人像视频制作:零成本手机教程,引爆社交媒体  正确安装梁托:终极指南与常见错误规避  AI超级英雄大乱斗:蜘蛛侠、死侍的爆笑奇幻之旅  FundView贷款管理:贷款汇总生成器提升效率  Guru知识管理平台:AI驱动的企业知识中心构建指南  AI Lead Generation: 解锁未来增长引擎,营销新纪元  使用 ChatGPT 构建自动化 SEO 关键词库  讯飞星火怎样一键生成教案_讯飞星火教案生成与学科选择【教程】  AI电商网站搭建:CSV到WooCommerce全流程指南  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  如何用AI帮你创建自定义表情符号(Emoji)?聊天斗图更有趣  Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  Excel Copilot:AI驱动的强大新功能与实用案例解析  OpenAI Sora 2:AI视频生成新纪元  CanvaAI抠图怎么批量处理_CanvaAI批量抠图与团队协作功能【指南】  Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】  利用Gen AI和AI Agent进行软件测试:Ollama本地LLM实践  教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱  轻松制作圣经视频:无需露脸也能赚钱的教程  tofai免费网页版入口 tofai官网手机版网站  Vidu AI:使用Q1模型轻松创建电影级短片  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  N8N自动化营销:无需编程实现AI智能获客  Character AI终极指南:构建你的人工智能伴侣,探索无限可能  如何通过文心一言进行地道的文言文翻译  AI周报生成工具有哪些_一键生成工作总结的AI工具推荐  千问怎么使用插件功能_千问插件调用与功能扩展【教程】  宗教领袖影响力反思:警惕精神控制与信仰危机  AI赋能音频转录:SovereignAudio自托管解决方案  怎么用AI学习新知识?3步教你构建个人知识库  AI简历泛滥:虚假技能与企业衰落的深度剖析  教你用AI一键去除图片水印,操作简单效果惊人  Android图像翻译器应用:技术、应用与未来展望  lovemo手机网页版 lovemo官方入口地址  AI如何变革法律行政助理角色?未来发展趋势分析  Gemini怎样用语音输入_Gemini语音输入设置【方法】  百度AI搜索怎样设置搜索偏好_百度AI搜索偏好设置与个性化推荐【技巧】  夸克AI怎样搜索医疗健康_夸克AI医疗频道与症状自查【技巧】  lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】  现代集团CES 2026首秀机器人Atlas 发布AI机器人战略  普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!  SEO优化利器:利用AI提升标签的关键词密度  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  豆包AI里的智能体有什么用_不同类型智能体使用场景介绍  EdrawMax AI:使用人工智能快速创建流程图和图表  打造迷人外表:AI技术揭秘面部美学比例与颜值提升 

 2024-11-01

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.