Meta开源人工智能翻译工具,可跨200种语言工作

人工智能应用1年前 (2023)发布 aixure
58 0 0
导读:社交媒体巨头Meta(原Facebook)创建了一个能够翻译200种不同语言的人工智能模型,包括许多当下商业工具不支持的语言。最近该项目将开源,以便让更多人能在其工作的基础上进行深度开发。 该人工智能模型是Meta公司雄心勃勃的研发项目的一部分,该项目旨在创…

社交媒体巨头Meta(原Facebook)创建了一个能够翻译200种不同语言的人工智能模型,包括许多当下商业工具不支持的语言。最近该项目将开源,以便让更多人能在其工作的基础上进行深度开发。

该人工智能模型是Meta公司雄心勃勃的研发项目的一部分,该项目旨在创建所谓的“通用语音翻译器”(延展阅读:重建通天塔Meta计划建造人工智能驱动的“通用语音翻译器”),该公司认为这对其在多个平台上的增长至关重要,包括从Facebook和Instagram,到VR和AR等领域的开发。机器翻译不仅可以让Meta更好地了解用户(从而改善为其带来97%收入的广告系统),还可能成为未来项目(如增强现实眼镜)的杀手级应用的基矗

这个模型的翻译不会是完美的

Meta的最新研究雄心勃勃、深入透彻,重要的是可以用Meta的模型翻译100种新语言。但从目前情况也可以看出,该模型在某些语言上的翻译质量可能会远远低于意大利语或德语等常见的语言。

有点矛盾的是,该项目成就源于其研究的范围。虽然大多数机器翻译模型只能处理少数几种语言,但Meta的模型是全方位的:它是一个单一的系统,能够在200种不同的语言之间以4万种配对方式进行互译。同时,Meta还对在模型中包括“低资源语言”感兴趣这些语言的公开可用翻译“句子对”少于100万。其中包括许多商业机器翻译工具通常不支持的非洲和印度语言。

怎样才能创造出适用于所有人的翻译技术?

参与该项目的Meta AI研究科学家安吉拉范(AngelaFan)称该团队的灵感来自于该领域对这种低资源语言的关注不足。范说:“我们有这样的包容性动机‘怎样才能生产出适用于所有人的翻译技术’?”

这个模型已经在测试中,并应用于支持一个帮助维基百科编辑将文章翻译成其他语言的项目。创建该模型的技术也将很快集成到Meta的翻译工具中。

你如何判断一个翻译?

即使在最好的情况下,翻译也是一项艰巨的任务,而机器翻译可能是出了名的不靠调。当在Meta的平台上大规模应用时,即使是很小的错误也会产生灾难性的结果曾经,Facebook将一名巴勒斯坦男子的帖子从“早上好”翻译成“伤害他们”,导致他被以色列警方逮捕。

为了评估新模型输出的质量,Meta为模型涵盖的每种语言创建了一个包含3001个句子对的测试数据集,每句话都由专业翻译人员和母语人士从英语翻译成目标语言。

研究人员在他们的模型中运行这些句子,并使用机器翻译中常见的基准BLEU(代表双语评估替代研究)将机器翻译与人类参考句子进行比较。

BLEU允许研究人员对句子之间的重叠进行数值评分,Meta表示,它的模型在不同语种的BLEU评分上提高了44%(与之前最先进的工作相比)。然而,就像人工智能研究中经常出现的情况一样,根据基准来判断进展需要谨慎。

尽管BLEU分数允许研究人员比较不同机器翻译模型的相对进展,但它们并不能提供一个绝对的衡量软件产生人类质量翻译的能力的标准。

记住:Meta的数据集包含3001个句子,每个句子都只有一个人翻译过。这为判断翻译质量提供了一个基线,但整个语言的总体表达能力无法通过这么小的实际语言片段来体现。这个问题并不局限于Meta它会影响所有的机器翻译工作,在评估资源不足的语言时尤其严重但它表明了该领域面临的挑战的范围。

微软负责机器翻译的首席研究经理克里斯蒂安费德曼(Christian Federmann)表示,就将机器翻译软件的范围扩大到覆盖范围较小的语言而言,该项目整体上是“值得称赞的”,但他指出,BLEU评分本身只能提供有限的输出质量衡量标准。

“一个非常有趣的现象是,说低资源语言的人通常对翻译质量的要求较低,因为他们没有其他工具。”范说,她自己也说一种低资源语言上海话。“这些用户容忍度会更高,,所以我们在模型矫正时不得不跟参与者说,‘嘿,不,你需要非常精确,如果你看到错误,就指出来。’”

企业人工智能的权力失衡

人工智能翻译的工作通常被认为是一件明确的好事,但创建这个软件对使用低资源语言的人来说尤其困难。对于某些群体来说,大型科技公司的关注就是不受欢迎的:他们不希望拥有必要的工具来将他们的语言保存在除自己以外的任何人手中。对另一些人来说,这些问题不那么重要,而是更关心质量和影响力的问题。

Meta的工程师们通过采访44个说低资源语言的人,探索了其中的一些问题。这些受访者提出了将他们的语言开放给机器翻译的一些积极和消极影响。

比如,一个积极的方面是,这些工具使用户能够接触到更多的媒体和信息。它们可以被用来翻译丰富的资源,比如英语维基百科和教育文本。然而,与此同时,如果使用低资源语言的人使用更多由其他常用语言生成的媒体内容,这可能会削弱用自己的语言创建此类材料的动机。

同样重要的是,决定开源尽可能多的项目环节从模型到评估数据集和训练代码这应该有助于纠正从事此类项目的公司固有的权力失衡。Meta还向希望为此类翻译项目做出贡献但无法自己投入的研究人员提供资助。

“我认为这是非常非常重要的,因为不是说一家公司就能整体解决机器翻译的问题,”范说。“这是全球的每个人,所以我们真的很有兴趣支持所有参与项目者的努力。”

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...