受访者 | 王仲远
出品 | CSDN(ID:CSDNnews)
提起美团,你首先会想到的是什么?是那个带着醒目黄色的美团App,还是每日穿行在大街小巷、为我们送上外卖美食及新鲜水果的的快递小哥?
实际上,美团不仅有这么接地气的一面,也有特别「高大上」的一面,比如立足于AI技术的美团大脑和美团BERT。
CSDN(ID:CSDNnews)专访美团AI平台搜索与NLP部的技术负责人王仲远博士,为大家揭晓美团在人工智能领域的「冰山一角」。
美团大脑打造大规模餐饮娱乐知识图谱平台
王仲远表示,美团搜索、大众点评搜索以及NLP中心都是放在一起的。这几个重要的团队之所以要放在一起,是因为在搜索中,NLP是一个非常关键且核心的技术。
在过去两年多的时间里,随着美团组织架构的不断升级,美团NLP中心也开始和搜索部门并为一体。我们都知道,业界有非常多的AI Lab和AI平台,但大家都面临一个普遍的困境,即AI落地不达预期。而美团创造性地把AI团队和业务平台团队直接放到一起,这就能使技术在第一时间进行验证并快速进行落地。
截止目前,美团及大众点评的平台上已有累计超过40亿的用户评价。在以往,这些数据只能安静地躺在数据仓库中「沉睡」,现在王仲远带领团队通过美团的算力和算法,真正让AI技术的研究有效地进行了落地。
具体来说,美团除了外卖以外,还涉及到店餐饮、酒店、景点门票和电影票务等综合**服务。近期,如果你在美团App中搜索「口罩」,就能看到附近药店,距离你很近的快递小哥也能像送餐一样将口罩快速送达到你的手中。
众所周知,在移动互联网之前的PC时代,人们有任何的需求几乎都会在搜索引擎中去搜索。而在移动互联网时代,搜索引擎实际上已经被大大弱化了,其原因就是各种垂直App的数据在底层逻辑上并没有实现互通。而美团凭借自身丰富的业务场景,有望打破这种「数据」孤立,并借此成为本地生活服务领域的一个超级App。
王仲远给我们举了一个很简单的例子,当用户在美团搜索「水饺」时,他的需求其实是有很多种可能的:他可能是想叫一份水饺的外卖,也可能是想去店里吃堂食,还有可能是想买附近超市里的冷冻水饺,亦或是想查查水饺的做法,或在美团上买水饺的食材。这种多样的搜索需求,是否都能在一个App实现呢?是的,美团可以满足这些需求。
王仲远表示,现在美团搜索正在进行一项比较重大的改版,预计在2020年二季度会和大家见面。未来的美团搜索,将会成为一个本地生活服务领域的超级搜索引擎。届时,用户可以在美团App、大众点评App上搜索任何关键词。
传统上,大家会不自觉地在这两个App上“小心翼翼”地挑选较短的搜索关键词,比如「火锅」、「烤串」、「麻辣烫」。但很快,用户可以随意表达他们的搜索需求。例如可以搜索「北京三里屯适合朋友聚餐的西餐厅」,或者「疫情期间最适合遛娃的景点」。这样的话,用户的体验会得到非常明显的提升。这背后是美团的NLP能力以及美团对于不同业务数据的高效整合能力在全力支撑。
2018 年 5 月,王仲远开始领导团队构建美团大规模餐饮娱乐知识图谱的平台美团大脑。这个「大脑」充分挖掘、关联各个场景数据,使用 AI 算法让机器「阅读」用户针对商户的公开评论,理解用户在菜品、价格、服务、环境等方面的喜好,构建人、店、商品、场景之间的知识关联,从而形成一个「知识大脑」。目前,美团大脑目前包含了 33 类概念、30 亿实体、1000 亿三元组,这个知识关联数量级已经达到了世界级的规模。
美团BERT训练本地生活服务模型
2018年10月,Google对外正式发布BERT模型,这也是自然语言处理领域近年最具突破性的进展之一。
比尔盖茨曾说过:「自然语言处理是人工智能皇冠上的明珠。」想更好地理解这句话,那么就得先来梳理下AI发展的脉络。王仲远归纳说,AI基本可以分为感知阶段、认知阶段和决策阶段。基于当前AI技术演进趋势,他重点介绍了对于AI感知和AI认知的看法。
关于AI感知,人和动物都拥有视觉和听觉,这种和大自然的交互,对应到AI技术便是视觉识别和语音识别。关于AI认知,据联合国调查,世界语言十分复杂,专家估计大约有5000到7000种。而语言也是人类才有的一种交流工具。这也是NLP的难度,比视觉识别和语音识别更难的原因,所有的语言都是人类创造的,而每一种语言的创造方式都不一样。这就导致NLP面临一个巨大的困境,即同一套技术,在中文上有效,在英文上未必有效。比如,分词就是中文独有的,英文根本不需要分词,因为它本身就是以单词的形式存在。并且即便同为中国人,对于分词也会有不同的意见和理解。
也正因此,NLP分出很多研究分支。此外,近些年随着深度学习的爆发式增长,行业研究者也希望能够挖掘出人类常用语言中的共同逻辑,这样就能让NLP实现跨语言处理。
2018年11月,在Google提出BERT模型一个月后,美团于同年11月,成立秘密团队美团BERT。该团队成立以来,一直在不断研究和攻克美团在生活服务领域的技术难题。2019年,美团BERT取得长足的进展。该团队使用几百块GPU和独有数据,训练出一个本地生活服务的模型。带给用户的直接感受是,在美团和大众点评中搜索一个词语,系统的识别性变得越来越高。
MT-BERT整体技术框架
2020年,微软研究院发起学术评测Citation Intent Recognition,评测要求参赛者根据论文中对某项科研工作的描述,从论文库中找出与该描述最匹配的Top3论文,美团搜索与NLP部与国内两所高校组队,提出了一种基于BERT和LightGBM的多模融合检索排序解决方案,一举拿下WSDM Cup 2020 Task 1榜单第一名。
此外,美团知识图谱组在微软MARCO比赛中,亦是排名榜首。自2018年比赛发布以来,知识图谱组团队所研发的深度阅读理解TABLE模型在比赛指标 MRR@10上首次突破0.4,而该模型正是基于BERT的Listwise 排序模型,当时微软官方Twitter还专门发推祝贺美团。
这对于王仲远以及其团队来说,都是一种莫大的鼓舞。此外,王仲远也曾在国际相关的学术会议上发表过40多篇论文。尽管工作非常忙,他还是通过各种途径学习,比如国际顶级会议上的学术论文,他一定会花时间仔细去阅读。此外,美团技术团队内部也经常有一些前沿技术分享会他也会不时去参加,通过各种途径增加新知识。
王仲远认为,人工智能的发展既快又慢。「快」是因为知识更新非常快,他说自己就曾看到很多面试者因为知识没有跟上时代而惨遭淘汰。「慢」是因为从1940年人工智能首次被提出以来,至今经过三起三落。2006年深度学习诞生,2012年人工智能进入爆发阶段,但是至今八年的时间,仍有大量问题还没有解决。
近些年,各大互联网厂商都在推出自己的人工智能小助手。这些小助手用来帮大家听听音乐、查查天气以及定下闹钟都还可以,但是如果想对它有更大期望,还有很长的一段路要走,很多时候,我们会发现「人工智能」和「人工智障」有时只是一步之遥。这也说明,在人工智能领域,我们还是有很多技术亟待突破。这里要特别提一下,王仲远博士之所以能对人工智能有这样深刻的积累和解读,也是得益于他多年对AI技术的专注以及积累。
闽地有才子,AI展才华
王仲远出生于福建省仙游县,成长在福建省永安市,得益于父亲严厉的管理,再加上强大的自驱力,从小学习就非常优秀,经常拿到年级第一名。
但是王仲远的性格,却带着一种「宁静致远」的温和,这点可能是受到性格慈和的母亲的影响。「严父慈母」的搭配,即让他的学习得到很好的启蒙。高考后,他顺利考入中国人民大学。在硕士期间,王仲远说自己有幸在孟小峰教授领导的WAMDM(网络与移动数据管理)实验室做项目,其中一个项目还获得了SIGMOD07 Undergraduate Scholarship奖项,当年全球仅有7位获奖成员。巧合的是,同样获得奖项的一位成员,还是王仲远日后在Facebook的同事。
硕士毕业时,王仲远冒险地婉拒百度、腾讯和 IBM 等众多知名公司研究机构的邀请,选择坚持等待微软亚洲研究院的Offer。王仲远说自己很幸运,微软亚洲研究院具备很多先天优势,在刚刚工作时就可以接触到很多世界级的学者,了解各领域前沿研究已经做到什么程度,无需摸着石头过河。
王仲远在微软亚洲研究院6年多,从校招生一直做到主管研究员,负责了微软研究院知识图谱项目和对话机器人项目。他一直专注于自然语言处理、知识图谱及其在文本理解方面的研究,取得了不少成绩,在国际顶级学术会议如 VLDB、ICDE、IJCAI、CIKM 等发表论文 40 余篇,并获得 ICDE 2015 最佳论文奖。
后来,王仲远在前同事的推荐下,远程参加了Facebook的面试,为了这次面试,他元旦假期整整准备了三天的时间。幸运的是他还非常顺利地拿到了工作签证,这也让他得以从国内到硅谷工作,去看到更大的一片天空。
到硅谷后,他感受到和微软研究院完全不同的画风,Facebook推行「Move Fast」文化,那里甚至没有测试人员,产品上线极快、基本是一周一次。在 Facebook 工作期间,王仲远所负责的一个项目是做实体链接,就是要把查询(Query)和知识图谱进行打通,这也是 NLP 领域一个非常重要的方向。短短半年的时间,效果就提升了80%左右,成为 Facebook内部最重要同时也是世界上最先进的产品级实体链接服务。现在Facebook 的搜索、推荐、广告、智能助理等许多系统中,也在使用他此前负责的这些技术。
几年以后,王仲远感觉中美两国的人工智能,已经来到同一个起跑线上,他带着技术报国的想法回到中国,并选择加入美团。他认为,AI技术想真正能够落地,需要算力,需要数据,需要算法模型,更需要丰富的应用场景。美团的应用场景丰富程度,远超很多互联网行业的同行。
2019 年1月21日,《麻省理工科技评论》发布了 2018 年「35 岁以下科技创新 35 人」(35 Innovators Under 35)中国榜单,王仲远获评为「远见者」。这就是王仲远的「AI人生」,现在已经描摹上浓重的色彩,未来必将更加明艳如春。