一个天才如何制造问题?让“人工智能”不再冷门的戴文渊

AI1年前 (2023)发布 aixure
81 0 0
导读:戴文渊不是那种严格遵循规则的人,喜欢「玩出花儿」编程有各种规范,他常常不遵守,写出一些完全不遵循规律、但执行效率特别高的程序,当然,别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写的,那时候刚创业,白天忙各种作为创始人要忙…

戴文渊不是那种严格遵循规则的人,喜欢「玩出花儿」编程有各种规范,他常常不遵守,写出一些完全不遵循规律、但执行效率特别高的程序,当然,别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写的,那时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑夜里,开始敲击键盘,那是他一天中最自如的时光。

文|金钟

编辑|刘斌

摄影|高远

制片|焦晨

视频制作|小满视频

当你知道,鸟要往哪里飞

2018年的中国,平均每分钟有28名婴儿出生,在每天要发生的41000多次分娩中,每位女性都要面临一个重要问题,是顺产还是剖腹产?这不仅关系到她们要遭受的疼痛,甚至也关系到生命存续。而它也是一件往往在最后关头才被决定之事,是这个医学昌明时代,为数不多主要依靠医生经验来判断的事。

今年春天,长春一位妇产科医生找到了新方法,也许可以为缓解这种痛苦提供一种工具医生在网上偶然看到一个人工智能平台,想试试看,能不能更精确地预测新生儿体重,来指导医生做判断。这个机器并不难操作,他把过往自己收集的所有孕妇体检的指标数据,以表格形式输入到机器里,很快得到答案不用选择公式,没有复杂操作,机器自己完成了一切。

这种看不到过程的运算,可信吗?结果出来医生也觉得意外所有案例的误差都精确在0.2公斤以内。这比起目前临床医学已达到的精确度,还要高。这个结果被写成一篇论文,最终在顶级医学会议上发表。

以上这一切,提供人工智能机器的公司第四范式,事先都不知情。医生通过他们官网上的试用入口,试用了这个名为AutoML的产品,完成了运算。

公司创始人戴文渊先生得知此事后的兴奋程度,甚至超过他们拿下银行的大订单。他还讲起了另一个相似的故事。某天朋友跟他讲起,偶然间看到别人使用他们的产品。那是一个「候鸟迁徙」的项目,机器被用来预测候鸟的飞行路径。当你知道,鸟要往哪里飞,又知道它们即将经过的地带会有污染或雾霾时,可以做一些干预措施,让它们尽量在安全地带飞行。

在这些故事里,戴文渊最看重的是这一个个具体的、活生生的人,他们没有太多AI基础,不会写代码,可能只会操作Excel表格,但可以通过基本的学习,用他们的工具来使用AI。「我认为这个代表我们真的改变了世界。」

人们坐在一个陌生的人工智能新工具面前,困惑、尝试,最终为自己所用,这与许多年前我们刚开始接触电脑时的过程,并无二致。

1991年,在苏州古城区读小学二年级的戴文渊,考了三次数学全班第一后,获得了加入计算机兴趣小组的资格。一周一次的上机时间极为宝贵,全部用来写程序,不能忍受一丝浪费。他打了个比喻:「比如你花了那么多钱去跟巴菲特吃一顿午餐,你一定会抓住所有时间向他请教问题,绝对不可能浪费时间跟他闲聊。」

10岁,他已经开始在机房电脑上写logo语言,家里书架上也有了C语言的书。在那之前,他父母让他去学特长,总是半途而废,书法坚持了1年,国际象棋也只坚持了1年,中国象棋最久,但他编着理由翘课,「混」了6年。只有计算机是他自己选的,迄今为止已经坚持了28年。

像是终于找到了某个人生的入口,年少时的自我发现与确认,此后不再改变。高一时他凭借竞赛获得保送大学资格,抱定心思只读计算机系,因此放弃了不能选专业的清华。后来在上海交大,他拿到了ACM国际大学生程序设计竞赛的世界冠军。

另一个关键节点是在香港科技大学的实验室里,他第一次知道什么是人工智能,并把它作为一生的追求。一开始是在论文上追逐它;后来离开学校到百度,在广告推荐系统上实践;再到华为诺亚方舟实验室,看看能在非互联网领域做到什么程度;再后来他发现,做一家公司可能是最好的方法,于是有了现在的第四范式。

「最重要的是,我在这件事情上得到内心的愉悦。我感兴趣,并且目标坚定,我没有想过其他的事。」

一份为队友准备可乐的工作

采访进行前,凌晨1点多,戴文渊还在办公,早上5点又回复了微信。

我们好奇他怎么安排一天的工作之前《人物》采访过一位女演员,她说会把最不想做的事情安排在早上,这样她每天都是越来越开心,都拥有一个愉悦的晚上。但戴文渊的回答是,「我已经不太记得自己喜欢做什么了。」一切都从逻辑出发,逻辑推出来该做什么就做什么,如机器运转,严丝合缝。

「逻辑」,合伙人陈雨强评价他时,也一直提到这个词。戴文渊曾是陈雨强大学的小导师,也是他在百度实习时的leader,他认为逻辑是自己从戴文渊那儿学到的最重要的东西。「比如形成一段描述,或者一个算法。他关心这里面本质的逻辑是什么;第二点就是,你怎么做,别人能听懂,别人能理解。」

这种极度理智,与戴文渊在ACM竞赛中受到的训练密不可分。

大学前他的性格截然相反,是紧张的、情绪化的。高二时他的计算机水平已经是江苏省顶尖,代表全省参加全国信息学竞赛。10年的准备,到了现场,第一试就开始紧张,第二试好一些,但一综合,排到了全国第23名。当时第18到22名都是同分并列,前20名进国家集训队,他失之交臂。

进国家队,代表中国参加世界信息学竞赛,是他中学时代的理想。他认为自己也具备这种实力。从10岁开始,他的世界里只有计算机和题目,花了大量时间做编程训练。比赛完,从北京回到家,他形容当时的心情:「就像奥运会,非常有实力竞争体操冠军的人,结果从平衡木上摔下来了。」

当时高中正好有一个保送清华的名额,但不能选专业,他不能接受不学计算机。刚好同一时间,上海交大的教授俞勇,寄了一张填了他名字的保送推荐表到戴文渊的学校。俞勇说,这张表不能给别人,如果戴文渊不要,那就自动作废。戴文渊接受了上交的邀请。

高中毕业前的5月,正是每年举办ACM竞赛的时间。戴文渊不需要高考,就在家通宵看比赛。那时的网络无法做视频直播,只有文字,只能打开一个网页,不停地刷新。那是上海交大第一次获得世界冠军。选手林晨曦,后来成了戴文渊的教练,再之后创办了现在知名的人工智能公司依图科技。

戴文渊的ACM之旅,开局并不算顺利。大一大二两次参赛,都没拿到好名次。大三备战时他开始琢磨,「怎么去做一个最正确的决定,怎么去非常理性地思考」「你根本没有必要证明你比队友强。我前一年那支队,三个人都很强,都在努力证明我是这个队里最强的人,但我发现这个事儿其实一点意义都没有。只有这个队强才行,至于你比队友强还是弱,都不重要。」

那是一个关键答案。如果说之前他认为自己是最优秀的,那时候他开始接受,自己可能没那么厉害,「到了那个层面,全世界最好的几个人(在比),你会发现从个人能力上单拼是拼不过的。但是团队不是,还要想办法去赢。」

之后的事情就变得简单了。他和队友们住到一起,肩负起让一个「喝了可乐就能写出好代码」的队员随时能喝到可乐的工作,并和另一个队员一起看他根本不感兴趣的动漫,只为了与他们训练默契度,达成相互理解。他的目的不再是解出一道题,而是在这个比赛里夺冠。

那年的决赛,刚好在上海,开场第一个小时,他们已经被对手甩开。当时戴文渊跟队友说,「这后面4个小时,是我们最后的4个小时。比完了我们就退役了。我们不用想之前一个小时做了什么,只要把握最后4个小时,发挥我们这些年的全部积累,不留遗憾。」到第2个小时、第3个小时、第4个小时,他又重复了这番话。那时候三个人的心态已经非常平静。

比赛结束前一个小时,按照惯例封榜,不再实时更新成绩。他们当时是第四名。但在倒数第8分钟,他们又用看起来不可能的「暴力枚举」方法,解出了一道新题,成为全场解题最多的队伍,获得冠军。

结束后,三人筋疲力尽,瘫倒在房间里。戴文渊用这枚代表世界最高水平的奖杯,告别了三年的ACM竞赛史。

更本质的问题

那时已是大三,同龄人都开始寻找人生方向。选择冷清还是火热,戴文渊也站在了小径分叉的路口。

他面临的第一个选择是确定研究方向。在他的描述里,AI当时是个「一点都不火」的专业,大家热捧的是图形学,做CG渲染,能去好莱坞。那AI是什么?一个被选剩下的专业。他只能跟人解释,有部科幻片叫《AI》。上海交大也没有人工智能领域的老师,戴文渊被送到了港科大,师从杨强教授。

港科大建在山上,实验室没有窗,手机也没信号,他关在里面,过得根本不知白天黑夜,又将信将疑,觉得在做一个所有人都做不出来的东西。

但教授杨强是坚信并热爱人工智能的「狂人」。学生们总开玩笑,说他们是《西游记》里的师徒,除了师父,其他人只觉得:「我靠,西天那么远,要不我回高老庄吧。」每次学生们蔫儿了,就被杨强「K一顿」,被「K」得多了,就会受到感染。「我发现这个人为什么几十年如一日坚持这样做事,这个事儿这么遥远,为什么你还……?这个目标怎么回事?你都不动遥」时间一长,他们也就跟着信了。

戴文渊很快做出成绩,就算是隔了10年,打开他的谷歌学术页面,成绩单还是闪闪发亮2007到2008的两年时间里,他一共发表了11篇论文,不少都是顶会,迁移学习领域单篇论文被引数位居全球第三。师弟陈雨强记得,当时这个成绩,不止在交大,在中国都很罕见。那时AI没有那么火,一年只接收100篇左右的文章,中国人当时也还不在AI圈子里。而戴文渊觉得,他的成绩得益于ACM竞赛的底子,那种做事的方式,和那种目标导向。

他获得了学术共同体的承认,但很快发现事情不太对。「我知道怎么去发顶会的论文,甚至知道怎么发让很多人引用的论文,但我发现一个问题在这个领域里,没有东西是能用的。」AI是基于数据、再加上算法,才能得到结果,但当时大家只关注算法。「不是说算法没用,但如果你是在一个破烂的数据上比哪个算法更好,那算法就没有商业应用价值。所以我们才被人家耻笑说,你居然还是做AI的。」

要解决这个问题,只有一个方法,就是去工业界。他在心里做斗争:「那时候从学术界去工业界,是一件很丢脸的事。当时有个词儿叫『去工业界』。什么叫『去工业界』?就是你在学术界混不下去了,就去写代码。」但百度对他的诱惑在于,它是当时数据质量最好的公司之一,而且一定会落地,因为有商业化的需求。于是不再犹豫,他放弃博士学位,入职百度,成为最年轻的T10科学家,扎进火热的现实之中。

他在百度四年的工作,用一个词总结就是「点击率提升系统」。这个系统的目的是提升百度搜索的商业变现。点击率的提升,首先让商家满意,因为广告被点击了更多次;用户收到的也不再是不感兴趣的东西;百度就更满意了,因为百度按照点击率收费。这其中的关键在于机器学习技术,它把效率提升了8倍。

技术得到验证,戴文渊认为AI应该有更大的用武之地。他争取过很多次,愿意调到其他部门,去做推荐系统,去做视频、问答,甚至是做围棋。当然,马上被驳回了百度是上市公司,每季度都有收入预期,而他就是那个扛预期的人,「一般每季度最后那个月,我就是全公司最忙的人之一。根本没时间思考别的,先把财报完成。」不久后,他决定从百度离开。

因为希望促进整个AI行业发展,所以离开,这个理由听起来太理想主义,显得遥远和隔膜。但实际上一切都有迹可循2012年冬天,戴文渊还在百度任职,有人在微博上讨论Google和Facebook的区别,提到Facebook有一位科学家离职了,因为「他觉得自己的技能全用来算计广告点击率这事,太悲催了」。一位朋友艾特了戴文渊,他留下了一个「大哭」的表情,说「面壁去」。

陈雨强对戴文渊的理解是,他一直是一个「造问题的人」。他一直在挑战更本质的问题,更大的问题,那些没被解决、还不知道怎么去解决的问题。陈雨强记得一个细节,离开百度时戴文渊在琢磨,机器人的操作系统是什么,那是一个还没被定义过的问题,是超前的。不是因为他喜欢尝鲜,而是因为那是新的价值、重要的价值。

他们一起从学生时代走到创业,戴文渊想做的事,全都没人做过。「不是已经有了一个问题,谁提出了A算法,他再提出一个B算法。他不是,他会提出一个新问题。这也是比较痛苦的一点,我们没有谁可以抄,只有别人抄我们。」

闭着眼睛往下跳

2015年,一天陈雨强突然接到戴文渊的消息,邀请他创业。陈雨强当时在今日头条负责搭建最关键的推荐系统,听说他要走,张一鸣每天找他聊到深夜。

但陈雨强看重两点,一是戴文渊是个值得追随的leader,二是他要做的是一家纯粹的人工智能平台公司,让更多的企业和个人能够用上AI,心一横,「闭着眼睛往下跳」。另一位联合创始人胡时伟也是那时候加入的。他们当时互相调侃:「You jump, I jump.」

戴文渊决定创业的原因很简单他看到了人工智能广阔的市场,以及最终明白他想做的事情,会在大公司受到多少限制。

离开百度后,他到了华为,想看看华为怎么服务企业。一次他为华为竞标,为某家银行搭建大数据平台。他发现就算这个平台建好了,数据都放在平台上了,它也并不能创造价值。他给银行做了几个AI应用,把小贷的营销效率提升了25倍,最后银行买了华为的大数据平台。而他做的人工智能应用,本质上只是一块「敲门砖」,他自嘲为「演员」。

客户当时也说,他们想买这个人工智能系统。戴文渊受到鼓励,回公司沟通,公司的结论是:这不是我们的产品,如果买大数据平台,我可以把这个系统送给你。这件事让他认清现状彼时的华为主航道是「端、管、云」,他想做的事情在主航道之外,且无力改变。

就这样,一群怀有人工智能理想的年轻人,在深圳福田口岸的民租房里开始了第一步。开始为第一个客户服务时,他们只有两个正式员工,两个实习生。服务结束半年了,对方催发票,他们发现公司里没有熟悉开票流程的人。

创业第二年,刚站稳脚跟,戴文渊提出要做AutoML技术。这项技术的核心在于,在里面封装极其强大的算法,让机器可以自动建模。「这听上去有点天方夜谭,但是可以实现的。训练机器就像训练小狗那么简单,客户定义好目标,收集数据,给机器设定好行为和反馈,然后抽离出规律和算法。」他曾在接受采访时说。

这样一来,原来很多需要人工完成的工作,比如选模型、调整参数、处理原始数据,现在都不用了。人们只需要组织好数据,就可以交给AutoML。这大大降低了普通公司的门槛和成本。用戴文渊的话说,能熟练使用Excel的人,经过数个小时的培训,都可以使用AutoML。

这个门槛最低可以降到什么程度?就像我们提到的妇产科医生和候鸟迁徙一样,还有一对夫妻开的摄影工作室,自己做了一个AI客服。

AutoML做到今天,也并非一个顺理成章的故事。第四范式决定做AutoML时,它的发展速度不算快,有点儿像2005年,戴文渊在香港科大的实验室里边做边怀疑自己。但到2019年的今天,已经是陈雨强说的「黎明」了AutoML已经是人工智能领域最炙手可热的技术之一。第四范式也已经是唯一一家被五大行投资的创业企业。去年底它的估值超过10亿美元,进入「独角兽」的行列。

在聊到理想的明天时,戴文渊回到了过去。他想起,在微软做出ExceL、Powerpoint、Word等办公软件之前,打字也是一个非常专业的工作,课堂展示用的还是胶片。在苏州读小学时,老师就在机房里让他们用一种更古老版本的WPS把文章打上去。那时世界上也只有很少人能完成这件事。他想做的事情,就像微软做的那样怎么能让每篇文章的作者,都可以自己打字。「如果纵向对比,做AutoML要难得多,但如果放在历史上来看的话,当年做出Word,不也很难吗?」

他有时会想,如果有一天公司什么事都不用他来负责了,他就回去做科学家,专心研究AutoML。

他不是那种严格遵循规则的人,喜欢「玩出花儿」编程有各种规范,他常常不遵守,写出一些完全不遵循规律、但执行效率特别高的程序,当然,这些代码别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写的,那时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑夜里,开始敲击键盘,那是他一天中最自如的时光。

今天,距离他埋头在香港研究人工智能、两年发表11篇论文的时候,已经过去10年了。这些年他进入工业界,之后又创业,论文的产量不高。今年算是一个高峰,他已经发表了3篇论文,Wenyuan Dai这个名字又重新出现在谷歌学术里,这些文章,都和他最关心的AutoML有关。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...