假设您正在训练一台具有扎实词汇和基本语音部分知识的计算机。怎么会理解这句话:"跑去商店的厨师没食物了。
厨师的食物用完了吗?商店有吗?厨师经营的商店没有食物吗?
大多数说英语的人会立刻想出正确的答案,但即使是先进的人工智能系统也会感到困惑。毕竟,这句话的一部分字面意思是"商店没有食物了"。
先进的新机器学习模型在这些方面已经取得了巨大的进展,主要是通过培训巨大的数据集或"树库"句子,人类已经手工标记来教授语法,语法和其他语言原则。
问题是树库价格昂贵,劳动密集型,计算机仍然难以解决许多歧义问题。根据句子结构和上下文的不同,相同的单词集合可以有不同的含义。
但是斯坦福大学人工智能研究人员的一组新研究发现,先进的人工智能系统可以自己找出语言原理,而无需首先练习人类为它们标记的句子。它更接近人类孩子在成人教语法或语法之前学习语言的。
然而,更令人惊讶的是,研究人员发现AI模型似乎推断出适用于许多不同的语言的"通用"语法关系。
这对自然语言处理有重大影响,因为自然语言处理对于回答问题、翻译语言、帮助客户甚至审查简历的人工智能系统越来越重要。它还可促进学习很少人所讲语言的系统。
成功的关键?看来,机器通过玩数十亿个让人联想到"疯狂 Libs"的游戏,就学到了很多关于语言的东西。为了更好地预测缺失的单词,系统逐渐创建自己的模型,了解单词之间的关系。
"随着这些模型变得越来越大和灵活,事实证明,它们实际上是自我组织来发现和学习人类语言的结构,"克里斯托弗曼宁说,他是机器学习教授、斯坦福大学语言学和计算机科学教授,也是斯坦福大学以人类为中心的人工智能研究所(HAI)的副主任。"这和人类的孩子一样。
学习句子结构
第一份关于斯坦福大学计算机科学博士生的实验报告凯文克拉克、约翰休伊特和乌尔瓦希汗德尔瓦尔曾与曼宁和Facebook人工智能研究研究员奥马尔利维合作。
研究人员首先使用谷歌开发的最先进的语言处理模型,该模型绰号为BERT("变形金刚的双向编码器表示"的简短)。BERT使用"疯狂自由民主党"的方法来训练自己,但研究人员认为,这种模式只是在附近的单词之间建立关联。例如,一个提到"跳投"和"跳投"的句子会提示模型搜索与篮球相关的单词。
然而,斯坦福团队发现,这个系统正在做一些更深刻的事:它是学习句子结构,以识别名词和动词以及主题、对象和谓词。这反过来又提高了它解开句子的真正含义的能力,否则可能会混淆。
曼宁说:"如果它能找出一个空白动词的主题或对象,那将有助于它更好地预测动词,而不是简单地知道附近出现的话。例如,如果它知道"她"指的是 Lady Gaga,那么它就会对"她"可能做什么有更多的想法。
这是非常有用的。以这句话来报道共同基金的宣传文献:"继续用名字来插上一些多元化的富达基金。
系统承认"插头"是一个动词,即使这个词通常是一个名词,"资金"是一个名词和动词的对象即使"资金"可能看起来像一个动词。不仅如此,系统并没有拔和基金之间的一串描述性词语(几个多样化的富达)分心。
该系统也变得善于识别相互提及的单词。在一段关于以色列人和巴勒斯坦人之间会晤的段落中,该制度承认一句话中提到的"会谈"与下一句中的"谈判"相同。在这里,系统也没有错误地决定"谈话"是一个动词。
"从某种意义上说,这无可为,"曼宁说。"我们所做的就是让这些非常大的神经网络运行这些疯狂 Libs 任务,但这足以让他们开始学习语法结构。
发现通用语言原则
在另外一篇主要以斯坦福大学学生伊森奇(Ethan Chi)工作为基础的论文中,曼宁和他的同事发现,BERT教授的通用原则适用于英语、法语和汉语等不同语言。同时,系统学习了差异:在英语中,形容词通常放在它修改的名词前面,但在法语和许多其他语言中,它更用在名词之后。
归根结底,识别跨语言模式应该使学习一种语言的系统更容易学习更多它们,即使它们似乎没有什么共同之处。
曼宁说:"这种通用的跨语言语法表示表明,接受10种语言培训的多语种模型应该能够更容易地学习第11或第12种语言。"事实上,这正是我们开始发现。