近日,Meta发布了一款全新的AI模型,能够翻译来自101种语言的语音,这为实现实时同声传译迈出了关键一步,让你说的话在出口瞬间被翻译成其他语言成为可能。
传统的语音翻译模型通常采用多步骤流程:先将语音转写成文本,再将该文本翻译成目标语言,最后将翻译后的文本转换成语音。这种方法不仅效率较低,还可能在每个环节中产生错误或误译。而Meta推出的新模型SeamlessM4T则能够更加直接地将一种语言的语音翻译成另一种语言的语音。相关研究论文已于昨日发表在Nature上。
SeamlessM4T在文本翻译方面的准确率比现有顶级模型高出23%。尽管Google的AudioPaLM模型在支持的语言数量上略胜一筹(其覆盖113种语言,而SeamlessM4T支持101种),但AudioPaLM只能将这些语言翻译成英文,而SeamlessM4T则能够翻译成36种其他语言。
“Meta在多功能支持方面表现非常出色,例如文本转语音、语音转文本,以及自动语音识别。”昆尼皮亚克大学计算机科学教授ChetanJaiswal(未参与该研究)表示,“他们所支持的语言数量本身就是一项了不起的成就。”
研究人员在论文中强调,人类译者在翻译过程中依然发挥着至关重要的作用,因为他们能够处理不同的文化背景,确保原意在另一种语言中被准确传达。加拿大魁北克拉瓦尔大学翻译、技术与社会领域的加拿大研究主席LynneBowker(未参与Seamless项目)也指出,这一环节尤为关键。她表示:“语言是文化的映射,而不同文化拥有各自独特的认知方式。”
在医学或法律等领域,机器翻译必须经过人工仔细校对,否则可能导致严重误解。LynneBowker举例指出,2021年1月,GoogleTranslate在翻译弗吉尼亚州卫生部发布的新冠疫苗公共卫生信息时,将英文的“notmandatory”(非强制)误译为西班牙语的“notnecessary”(不必要),这一错误完全扭曲了原信息的含义。
此外,AI在不同语言上的训练数据分布存在不均,这使得现有的语音到语音翻译模型在处理某些语言对时表现不一。例如,由于有大量数据支持,模型可能能够轻松将希腊语翻译成英语,但在将斯瓦希里语翻译成希腊语时却面临困难。
为了解决这一问题,Seamless团队对模型进行了大规模预训练,利用数百万小时的多语言语音数据进行训练。这种预训练让模型能够识别语言的一般模式,从而在处理使用频率较低的语言时表现得更加出色,因为它已具备对人类语言声音的基础理解。
值得一提的是,Seamless系统是开源的,研究人员希望这一开放策略能够激发更多人基于现有功能进行改进和拓展。然而,也有人对其实际应用效果提出了质疑。Jaiswal表示:“虽然Google的翻译模型不像Seamless那样开源,但它的响应速度更快、运行效率更高,而且对学术界是免费的。”
最令人期待的是,Meta的系统展现了未来实现跨语言即时翻译的可能性,就像DouglasAdams在经典小说《银河系漫游指南》中描绘的“巴别鱼”一样。SeamlessM4T的翻译速度比现有模型更快,但尚未达到实时翻译的水平。不过,Meta表示,他们正在开发的新版Seamless,其速度已接近人类同声传译员的表现。
“尽管这种带有延迟的翻译已经非常出色且实用,但我认为真正的同声传译将更加高效和有价值。”德克萨斯大学阿灵顿分校计算语言学实验室主任KennyZhu表示。
免责声明:本文章如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系