专访字节跳动王明轩:机器翻译和人工翻译实质是两个赛道 | T前线


技术的进步,往往意味着行业的进化发现了新的方向。翻译行业也不例外。随着全球化进程不断加快,人们在进行涉外活动时都离不开跨语言的交流。机器翻译的出现极大地扩充了翻译的应用场景,固然它还远远称不上完善,但却在人类挑战巴别塔的路上跨出了坚实的一步。51CTO特邀字节跳动AI Lab机器翻译负责人王明轩,聊一聊机器翻译发展的这些年、那些事。

从基于规则,到基于统计模型,再到基于神经网络

机器翻译的发展与计算机技术、信息论、语言学等学科的发展紧密相关。进入21世纪以后,随着硬件能力的提升和算法的优化,机器翻译技术迎来了空前的跃进,并成功迈出象牙塔,走上了普惠之路。

51CTO:纵观历史,机器翻译经历了哪些重要的发展节点?

王明轩:机器翻译实质是一个非常古老的问题,机器翻译的历史可以追溯到17世纪笛卡尔、莱布尼茨等哲学家提出的「通用语言」。1946年等计算机正式诞生后,人们期望计算机能将一种语言翻译成另一种语言。美国科学家瓦伦·韦弗在《翻译备忘录》中正式定义了机器翻译的概念和思想。这一时期,在冷战背景下,美苏两国也基于搜集信息的需要,投入了大量资金用于机器翻译相关研究。

一开始大家相对较乐观,觉得这事很快就可以搞定了。第一版的翻译系统非常简单,主要是基于词典,比如把“太阳”翻译为“sun”,但这种词对词的翻译很快遇到了瓶颈,因为一词多义的现象比较多,比如“bank”,既可以是“银行”,也可以是“河岸”,具体语境中会面临很多选词的困境。结合语言学家制定的语义规则可以解决一部分歧义,但发展到后期,规则越多,冲突的地方也会越多,系统会越来越复杂,依然无法解决问题。

1966年美国公布了报告《语言与机器》,全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。受此影响,机器翻译陷入低潮期。

直到90年代,IBM提出基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。基于统计的机器翻译原理很简单,比如要在语境中判断bank应该翻译成“银行”还是“河岸”,那就进行大量的相关语料统计,会发现上下文里有“钱”相关的,那就更有可能翻译成“银行”,上下文里提到“河流”,那更可能对应的是“河岸”。如此一来,不用词典与文法规则,而是按照概率来判断具体场景下的语义。这是划时代的变化,机器翻译的质量得到了巨大的提升。很快,机器翻译开始在很多实用场景落地。

从1993到2014年基本都属于统计的时代,但虽说是基于统计,还是需要人工去定义很多特征、模板,再进一步设计细节,因而也不是非常灵活,模型的能量也不是很强大。

而后到了神经网络时代,神经网络翻译从模型上说主要包含编码器和解码器。编码器把源语言经过一系列神经网络变换后表示成一个高维向量,解码器负责把这个高维向量重新解码成目标语言。2014年Seq2Seq的提出,让神经网络翻译慢慢开始比统计机器翻译做得更好。

到2017年时,谷歌提出Transformer,模型更大、结构更灵活、并行化程度更高,这进一步提升了翻译质量。同年,AlphaGo的胜利也让大家对人工智能的信心更充分。也正是在2017年之后,机器翻译的产业化迎来了爆发期,直到现在,整体大框架没有发生太大变化,但小细节上出现了很多创新。

挑战“巴别塔”

从词典匹配,到结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,以及目前主流的神经网络机器翻译,相比之前,机器翻译的质量有了飞跃式的提升,但依旧面临着重重挑战。

51CTO:目前机器翻译面临的主要挑战在哪里?

王明轩:挑战其实还比较多。

第一,如何做稀缺语种的机器翻译。这是机器翻译从诞生以来一直就面临的问题。语种越小,数据量越少,语料的稀缺会是长期的挑战。

第二,如何做多模态的机器翻译。近年来,我们经常需要做语音翻译、视频翻译,事实上这类翻译需要AI做一些前处理之后再做翻译。如果AI处理错了,翻译就可能出现错误。再比如,在同声传译的场景,通常是边说边翻,拿不到完整的上下文信息。这在多模态翻译中都是常见问题。

第三,最为本质的问题在于,目前的机器翻译还是基于数据驱动,并没有在理解层面做得更为深入。模型的学习依旧是依靠语言的贡献,而非真正地理解语义。这一点极大地局限了机器翻译的上限。

51CTO:火山翻译作为字节跳动旗下机器翻译品牌,如何应对语料稀疏问题?

王明轩:有两个比较直接的方法。

第一种是扩充语料,努力让稀缺语料“不再稀缺”。这种思路是,通过一些模型,尽可能从互联网上获取语料。比如冰岛语,我们能收集大量冰岛语的单语语料,在互联网上就可以去收集与单语语料相近的英文文本,我们去找这种可能对齐的语料,形成双语去对。当然我们有时也用人工标注,但更多的是靠智能的方法自行增加。

第二种是利用语言的共性。大家生活在同一个星球,虽然使用的语言不同,但其实在描述同一个世界,因此语言在高层次上是有很多共性的。我们会借助一些迁移学习或者预训练的方法来解决这类问题,比如让英语的模型去帮助法语的模型,或者让德语的模型帮助法语的模型。主要就是这两个思路。

51CTO:在多模态的机器翻译中,要减少噪声干扰的话,火山翻译采取了哪些应对策略?

王明轩:应对噪声干扰的话,首先,进行了多种模态的联合建模。我们会拿语音信号和文本信号一起去做下游的任务,这样一来,错误传递会减少很多。当前,构建多模态的统一语义在学术界也是非常火热的话题,所以我们也会吸收其他领域的很多东西。

其次,我们在文本这块也会做很多鲁棒性训练,尽量让模型在有错误输入的情况下,还能保证正确的输出,或者不扩大这种错误,相当于把自动纠错和机器翻译做到了一个模型里面。因为人其实是有这种自动纠错能力的,比如人工译员在听到错误的信息时,会进行自动纠正,所以我们在模型里面也会考虑这些信息。

51CTO:同声传译对延时的要求很高。但是如果没有结合上下文的语境或者听完完整的语义,准确率又很难保证。机器翻译如何平衡这两者之间的矛盾?

王明轩:这一点在工业界很有挑战性,因为不仅关乎延时和准确率的trade off,实际上需要优化的地方更多。

比如在某些会议场景中,翻译字幕需要展示在大屏幕上,观众接受字幕的速度也是关键问题之一,包括每次字幕展示的长度、字幕弹出的频率,都关系到如何读起来更舒服。其中有很多细节需要我们反复和产品经理沟通,深入用户调研来看整体满意度。因此,这不仅仅是准确率的问题,要把用户的实际使用体验都作为要素考虑进去,再来调整模型。

此外,延时可能是用户满意度的指标之一,但延时也并非越短越好。通常有个合适的gap反而更好。因为延时很短的话,字幕弹出的速度也会很快,用户的接受效果反而不太好。在这方面,我们也会借鉴业界的很多成熟做法,比如动态控制字幕翻译的间隔。总体而言,这是一个非常工程化、产品化的问题。

未来趋向

机器翻译仍然不是完美的,但从业者们正在努力让其变得质量更高,可用性更强,适用性更广。让我们来观察一下它的发展趋势,尤其是当机器翻译与专业译员发生“碰撞”时,翻译服务场景又会产生哪些化学反应。

51CTO:随着技术的发展,机器翻译是否会衍生出更多有趣的应用场景?

王明轩:之前我们推出的火山翻译AR眼镜就是类似的尝试。今年谷歌I/O大会上压轴发布的AR翻译眼镜也是很有意思的应用,使用者佩戴后可以实时看到对话者的译文,类比字幕效果。

这其实都反映出了一种比较朴素的理想:我们希望大家能生活在一个沟通无障碍的世界。比如:出国旅游时,戴上眼镜就可以理解任何语言的文字提示,你看到的路牌是德语的,而显示在眼镜上的是中文。日常交流时,别人跟你说话,对话信息自动变成你所理解的文字,显示在眼镜下方。这都是能更有效地获取信息的场景。

51CTO:长远来看,机器翻译将如何发展?

王明轩:应用方面,我觉得机器翻译可能会和多模态应用结合得更为紧密,比如视频内容、音频内容的翻译需求会越来越多。另外,机器翻译可能会更多地与业务出海、文化出海联系在一起。因为国内很多公司都在积极地进行海外业务的扩张,我认为这个领域会对机器翻译的发展起到很大帮助。

技术方面,我能看到的已经在发生的趋势是:一是大数据和大模型的训练。从事这一领域的人越来越多,模型越来越大,数据量也越来越大,很多人认为这种变化有可能会给机器翻译的能力带来质变。二是翻译和模态的结合。不止在翻译方面,业界很多人都在试图构建不同模态的统一语义表示,之前几年,不同模态之间界限还比较分明,大家交流相对也少。如今,模型越来越一致。未来可能出现一个模型,既能做文本翻译,也能做语音翻译,甚至能做视频翻译。

51CTO:未来,机器翻译是否有可能在特定场景中完全取代人工翻译?

王明轩:按目前这种做法肯定是取代不了人工的。不过我觉得机器翻译和人工翻译可能不属于一个赛道。

机器翻译的特点,一是速度非常快,二是可以规模化,所以它适合处理的是海量且需要及时处理的信息。举个例子,如果现在有一千万个视频要从英语翻译成法语,那么纯靠人工是不太能做到的,但是机器可以做。这一点就可以让机器在它的赛道里发挥很重要的作用,长期看来是大有裨益的,因为它开阔了整个市场,让跨语言的市场变得更大。

但是对于很精细的翻译场景,机器翻译可能就力有不逮。就像有人提到的,机器翻译能翻得了《红楼梦》吗?我认为,这就不属于机器翻译的任务范畴。小说或诗歌之类的翻译,这一类型的翻译必须要依仗专家。还有规格很高的会议同传,也肯定需要专业译员担任,而不可能是机器。但在一些重要性不是很高的会议上,机器翻译的成本优势就会展现出来。

机器翻译跟专业译员,两者隶属赛道不同,区分还是很鲜明的。不过某种程度上,两者也存在互帮互助的关系。这体现在:一方面,机器翻译需要的语料就是专业译员生产的。专业译员在工作过程中不断地生产大量的语料,这些语料能够持续帮助机器翻译去提升能力。另一方面,机器翻译也可以帮人减轻负担,处理要求没有那么高的任务。现在也有很多译员在做译后编辑,很多翻译公司让机器先做翻译,译员再做编辑,效率也能因此大幅提升。

嘉宾介绍

王明轩,字节跳动AI-Lab机器翻译团队负责人,研究方向主要为机器翻译和自然语言处理。在机器翻译领域,发表包括 ACL、EMNLP 等顶级会议论文超过40 篇,多次拿到 WMT等国际翻译评测比赛第一。同时还担任EMNLP2025赞助主席,和NeurIPS 2025、NLPCC 2025、AACL2025 等会议领域主席。

栏目介绍

“T前线”是51CTO内容中心专为技术人物开设的深度访谈栏目之一,通过邀请技术界内的业务负责人、资深架构师、资深技术专家等对当下的技术热点、技术实践和技术趋势进行深度的解读和洞察,推动前沿科技的传播与发展。


# 人工智能  # 字节跳动  # 架构  # 算法  # transformer  # ar  # 也会  # 的是  # 法语  # 这一  # 冰岛  # 就可以  # 很高  # 翻译成  # 模态  # 这是 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Gemini怎样写描述型提示词_Gemini描述提示词编写【攻略】  利用 ChatGPT 进行复杂数学公式的推导教程  Midjourney怎样写风格化提示词_Midjourney风格提示词写法【教程】  批改网AI检测工具怎样优化检测精度_批改网AI检测工具精度调节与模型选择【实操】  唇语解读的界限:名人的隐私与公众的好奇心  ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南  如何通过 DeepSeek 进行深度神经网络超参数搜索  AI落地页优化:3个技巧,转化率飙升!  DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南  ChatGPT 处理超长 PDF 文件的核心步骤  Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密  百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  VideoGen教程:AI视频生成器,无需拍摄快速制作视频  AI Buildr: 构建 AI 应用的终极指南  Codova AI:终极动态QR码生成器教程与功能详解  探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析  批改网ai检测工具怎么检测多语言作文_批改网ai检测工具多语言切换与检测支持【技巧】  批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】  Depseek能否生成领导汇报版总结_Depseek汇报版结构调整与精简技巧【教程】  AI写作避坑指南:小说家应避免的AI使用与创作技巧  百度AI助手直接入口 一键直达官网入口  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  雷小兔ai智能写作如何生成日记_雷小兔ai智能写作日记模板调用【步骤】  Claude怎么用新功能会议纪要_Claude纪要生成使用【步骤】  Comet浏览器:使用ChatGPT增强您的搜索体验  教你用AI帮你进行论文选题,快速找到有研究价值的方向  百度ai助手通知栏怎么关 百度ai助手通知消息屏蔽  ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法  grokai如何生成动态图表_grokai动态图表生成工具使用及数据可视化技巧  Tune AI: 革新音乐创作,AI音乐平台深度测评  ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法  旅游营销AI:ChatGPT邮件营销策略,提升旅游业务转化率  Ignite & Sell Assistant:AI 邮件营销终极指南  《高龄母亲》:从日本民间故事中汲取的人生智慧与家庭真谛  AI驱动合同管理:Microsoft Power Platform实战指南  Gemini怎样用快捷指令_Gemini快捷指令使用教程【步骤】  智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】  Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  CanvaAI抠图如何换背景_CanvaAI背景替换与设计模板结合【攻略】  Midjourney怎么用一键生成海报_Midjourney海报生成教程【方法】  如何用 ChatGPT 快速生成短视频分镜脚本  Midjourney怎样用参数调分辨率_Midjourney分辨率调整技巧【教程】  零成本AI营销机构:2025年自动化运营,颠覆传统营销模式  eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX  ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】  OpenAI ChatGPT Agent:AI自主任务的未来  播客成功的秘诀:打造高转化率的内容和社区  AI破译古文字:重现失落文明之声,揭秘历史真相  DeepSeek编程怎么用_DeepSeek编程使用方法详细指南【教程】  千问怎么使用插件功能_千问插件调用与功能扩展【教程】 

 2023-05-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.