神经机器翻译再立新功：实时机器翻译取得突破

AI1年前 (2023)发布 aixure

68 0 0

导读：前段时间，谷歌报告了其在神经机器翻译上所取得的重大研究进展，并也实现了 Google Translate应用上汉语-英语翻译的商品化（参阅《谷歌翻译整合神经网络：机器翻译实现颠覆性突破》和《谷歌神经网络翻译系统发布后，我们和Google Brain的工程师聊了聊》）；…

前段时间，谷歌报告了其在神经机器翻译上所取得的重大研究进展，并也实现了 Google Translate应用上汉语-英语翻译的商品化（参阅《谷歌翻译整合神经网络：机器翻译实现颠覆性突破》和《谷歌神经网络翻译系统发布后，我们和Google Brain的工程师聊了聊》）；近日，来自纽约大约、香港大学和卡内基梅隆大学的研究者又报告了神经机器翻译在实时机器翻译上的突破。

尽管机器学习技术发展迅猛，但谷歌也承认机器翻译还是会犯人类永远不会犯的错误。这一问题增加了实时输入的挑战，让问题变得十分棘手。

实时机器翻译的使用范围涵盖消费者应用（如 Skype Translator）到有望能够帮助专业语言学家显著提高生产力的自适应机器翻译工具。

Graham Neubig

「这项研究的最终目标是语音，」Graham Neubig 告诉 Slator。Neubig 是卡耐基梅隆大学语言技术研究所的助理教授，他与香港大学博士 Jiatao Gu，讲座教授 Victor O.K. Li 和纽约大学的助理教授 Kyunghyun Cho 合作进行了这项研究。

Kyunghyun Cho

Victor O.K. Li

Neubig 解释说：「同步机器翻译是一项能够在说话或是打字的同时实时进行语句翻译的技术。以语音为例，在完整的句子结束之前进行翻译是很重要的，因为一个讲话者说完一句话需要10－20秒，这就意味着需要这么长时间翻译器才能够向用户开始提供翻译内容。这种滞后意味着诸如使用语音翻译技术作为中介流畅地参加一个多方会谈是困难的。」

根据 Neubig 所言，在过去解决这种滞后的一种方法是将输入分割成较短的段而不是直接处理整个句子，然后将各段独立地进行翻译。如果能够找到一个好的分割位置（「比如，在可以彼此分开翻译的短语之间」），就可以减少滞后。这种技术相较之前更快，但是仍然降低了流畅度。

然而，这项研究的与众不同之处是它使用了神经机器翻译（NMT）框架（图2），能够「自动学习什么时候开始翻译词以及什么时候等待更多的输入。」

如果你愿意，可以想象一个等待翻译打字的 NMT 系统，它尝试根据所有已经输入的单词生成下一个单词的翻译。接着，根据神经网络现在的状态（「以及我们对下个翻译的置信度，」Neubig 说），它将会自动决定这个单词是否应当被输出或是等待另外的输入。

「如果答案是『是，输出单词，』那么输出单词同时返回到 1。如果答案是『否，我们不够确定，』那么停止输入同时返回到2，」Neubig 说道。

他补充说，为了系统能够正确地工作，他们要问自己：我们怎样才能为这项工作设计出合适的机器学习算法？我们怎么来确定翻译的便捷性和准确性之间的平衡？我们怎么能恰到好处地搜索最佳翻译？

「这些问题的答案就是本篇论文中技术内容的关键部分，」Neubig 说道。

他指出，「在我们的实验中，我们首次证明了这些算法能在同步翻译上表现得非常好，远远优于之前的基于分割的算法。我们认为这一表现的主要原因在于我们的方法记忆了之前所有输入的单词，并且在选择下一个要翻译的单词的时候对之前所有单词进行了考量，而这对以前基于分割的方法来说并不容易。」

下文是 Slator 对 Graham Neubig 采访关键部分的摘录:

Slator：在第6章，你提到同步翻译是相关工作的典型应用，但是你的论文基本聚焦在文本输入而不是语音输入。那么这项研究的主要实际应用是什么呢？

Neubig：这项研究的最终目标是语音。在这项工作中我们处理文本因为这更易于起步；因为在处理语音的时候还有附加的事项需要考虑，例如语音识别结果导致的附加的不确定性。我们对于在将来能处理语音绝对地感兴趣，这也是我们将要做的事

Slator：为什么你会选择聚焦在 NMT 的这一特定的应用场景？

Neubig：首先，因为这是语音翻译的一个非常重要的问题。其次，因为 NMT 非常适于处理这个问题。NMT 的工作方式是预测句子的下一个单词并且一次一个地输出它们这正是我们在同步机器翻译系统中所需要的。在这里也考虑了其他很多有趣的算法。