汤晓鸥教授：有了原创技术中国的AI才有未来

AI2年前 (2023)发布 aixure

69 0 0

导读：4月29日消息，一年一度的GMIC全球移动互联网大会在北京举行，在未来峰会上，香港中文大学教授、信息工程学系系主任汤晓鸥表示：中国的人工智能技术想要成功，必须踏实做研究，更多的原创技术才能帮助到中国AI的未来。汤晓鸥认为：机器学习就是大数据训练的…

4月29日消息，一年一度的GMIC全球移动互联网大会在北京举行，在未来峰会上，香港中文大学教授、信息工程学系系主任汤晓鸥表示：中国的人工智能技术想要成功，必须踏实做研究，更多的原创技术才能帮助到中国AI的未来。

汤晓鸥认为：“机器学习就是大数据训练的过程，大数据训练需要海量的数据来训练无穷大的网络，这么大的数据需求以及GPU集群需求，并且要进行并行运算，所以这就是巨大的门槛，导致只有谷歌和FaceBook这些公司能取得大的进展，人工智能需要大量的前期准备，随便一个创业公司做人工智能，是不大可能成功的”。

谈到中国人工智能的未来时，他指出：中国的原创技术不应该去B，也不应该去A，也不应该去T，我们应该去H，原创的技术才是核心能力，才是竞争力。（定西）

以下为汤晓鸥演讲实录：

今天的会场真的很大，我以前其实做过很多报告，从来没有碰到过这么多没人坐的地方。非常感谢长城会邀请我来做报告，其实我还是比较难请的。一般来说，这是我第一次做学术以外有点商业性质的报告，为什么第一次没有给长城会，我认为长城会更加高端大气，更加适合我演讲的风格。再一个是其他的讲坛没有请我，所以我也没法去。

我昨天晚上写了一个讲稿，我的题目叫做《人工智能的明天，中国去哪儿》，看起来是很大的题目，其实我讲的内容比这个更大，如果讲明天，一定要从昨天开始，后来我决定从1968年开始讲，因为我是1968年出生的，之前的事我也特别不是清楚。

1968年出生以后，我发现外面很乱，学校都不上课了。我就问我妈妈说，这是怎么回事，她说是文化大革命。然后我想，算了，既然学校不开，我也不用上学了，所以就等了七年，七岁的时候上学了，结果在学校一呆，就呆了四十年，四十年下来以后，第一次接触人工智能是1992年，在MIT我上了一门课，我记得当时那位教授发明了人脸识别的算法。当时大家都很激动，这个算法好像能够在实验室里很好的识别人脸，他说这个东西将来非常有用，可以在公安各种各样的场合进行应用。

但是等了整整十年，也没见到用起来。所以我就在我的实验室也开始做类似的实验，等我开始做才发现这个东西根本不靠谱，根本用不起来。但是我们还是跟国家申请了很多钱，因为要反恐，所以我们花了很多钱，但是做的东西其实没有太大用。后来我去了微软，到微软就好办多了，因为微软不搞监控。它的东西主要是玩，玩的话就无所谓管用还是不管用了，你觉得不好玩，你就不玩了。

当时我们一直有一个想法，怎么样把计算机视觉、人工智能的东西用到日常生活中。因为我们有一个非常强大的团队，我们不想只是发一些文章，希望它真正用起来。但是在2005年，这个东西基本上用不起来。你们在日常生活中看不到人工视觉任何的用途。所以我在很长时间从2005年开始，我所有讲座的题目都叫生活中的计算视觉。

我希望把我们这些算法能够在生活中起到一些作用。但是当时有一个问题，因为我们未来在顶级会议上发文章，大家做工程的知道，如果你用几页纸的公式，你这个东西基本上是没有什么屌用的，所以这两个矛盾是非常尖锐的。一方面你要保留你的工作，一方面你要做点有用的东西。后来我们决定必须要找最聪明的人，把两件事情结合在一起做起来。

所以我花了很多心思想，我们做什么东西才有用，让大家能够用起来。这时候我的孩子就出生了，他是03年出生的，出生以后我在微软和北京、香港之间来回跑，每次见到他的时候我会拍很多照片，因为见的机会比较少，他长的又比较漂亮，所以我拍了很多照片，而且不断的拍。拍了大量的照片以后太太很不高兴，你拍了一万多张，你不管，这些照片我也找不找，后来我跟的学生说，大家帮我整理一下照片吗？后来我们做了一个项目用计算机自动的帮助大家整理照片叫Photo Tagging，可能大家在手机上已经用这个了，但是我讲的都是十年前的工作，因为我讲的都是历史。十年前我们做了一项工作，里面有很多技术，我每讲一项技术其实都是一篇顶级会议的文章。

比如说我们做的人脸检测，我们把相册里面的人脸检测出来，然后再进行标注，做了各种各样的UI设计，我们把这个东西做到微软的Photo Tagging为里面。后来我们做图像的搜索，我想搜索一下我的小孩穿绿一衣服的照片，把穿这件衣服的照片搜索出来。后来我觉得前面这十几张挺漂亮的，我把它选出来，然后做了一个识别软件，你用计算机自动判断出来，这个照片里面哪些部分是重要的，你不能进行遮挡，同时你要把整个背景全部盖住，同时你要均匀的分布，所有的条件同时满足，要在几毫秒之内算出来，这个技术现在是不难的，但是十年前是相当难的。所以为什么那时候专门发表一篇文章专门干这件事情，我做了很多特别效果的软件，这时候我太太不跟我吵架了，她觉得我干了一点有用的事情。

我刚才给大家看的其实都是有照片的，我判断这个照片里面哪个地方重要，哪个地方不遮挡，我只要用人脸检测就可以了。但是如果是普通照片，什么地方我不应该遮挡，什么地方是重要的，这涉及到图像内容的分析，这就涉及到更加智能的东西。图像智能在学界是研究很久的，我们研究的时候前面也已经做了十几年了，但是我们是第一个用大数据的方法来做这件事情的，现在大家经常听到大数据，其实十几年前已经做这件事情了，只是我们叫的名字不一样。

我们可以看到数字，过来三个学生，要了两万张图像，我们觉得很了不起的，现在的数据量是不一样的，算法也是不一样的。那个时候能够做到是相当了不起的，所以我们最后做出的结果是这样的，我们计算机可以判断出一张图像哪个是最重要的。

还有一个好玩的应用，这个东西你把图像缩小以后，你就看不清了，如果你把中间重要的部分切出来再缩小，你还是可以看清图片的，所以这个实际上还是很有用的，这是照片系统里面很多图很容易把里面重要的部分弄出来。

实际上人工智能难就难在并不是所有的东西都那么做的，有些东西是超出我们的智商的。比如说这张图片，哪个对我来说是更重要的，但是计算机是把前面的判断出来，这个现在是可以解的，现在我搜集大量小孩撒尿的照片还是可以训练出来的，但是不是那么容易的，有的时候领导讲话也是这个姿势。

下面这张图更难理解了，我用我小孩的图，你们做图像理解，你们能不能理解这些图。后来他们看了以后都放弃了这个研究方向，比如说这是我小孩的第一个女朋友，这是我在俄罗斯给他买的玩具，关系还是很好的，但是进展的有点快。他才六个月，很有科学家的探索精神。

然后我们又做了一些有趣的东西，把这个图像把物体切割出来，我们把一组图同时切割出来，再做一些好玩的东西。

接下来我们希望跟一些电影结合起来，我们就找了小兵张嘎卡通片，我们进行图像搜索，找出了相似的图像和照片，把这个替换掉了，这个用PS是很容易做的，但是十年前是很难做的。我们从检索到分割，所有的步骤都是动画做的，这是十年前的工作，也是发表在顶级的会议上。这个是小兵张嘎跟他的妹妹，这是我的小孩跟他的女朋友。这是小兵张嘎跟特务。

刚才讲的是人脸识别，图像方面我们也做了开创性的工作，在我们做之前，大家讲这张图有一些毛病，然后再评价这个Quality，我们做这个工作这张图是很完整的图，但是我们判断这张图有多美、多漂亮。比如说这两张图，按照传统算法，左边是模糊的图，右边是清晰的图，但是我们判断左边这张图是有意义的，怎么让计算机来判断一个图美，还是不美，其实我们也不知道怎么做。所以我让学生到图书馆把摄影书拿回来，我们再用计算机来识别，它的景深，物体的白色在什么位置，然后学突然这张图是漂亮，还是不漂亮的。它有什么用呢？我们在网上搜索了大量的图，搜索完了以后我们可以把漂亮的图放在前面，差的放在后面。或者说你在手机牌照的时候，我们可以教你怎么牌照，怎么取景，怎么样使用大光圈等等。

我们在MSN上还做了一些特效，加一些眼镜，如果大家现在用APP可以在脸上做各种各样的特效，这是我们十年前做的产品，已经在MSN上用了很长时间。但是我们做这么多产品，大家没有一点感觉，根本不知道我们做了什么东西，就是因为做的很辛苦，而且效果也没有那么好。

另外一个东西就是去雾，这是我们专门给北京做的，当时08年奥运会的时候，所有的报道都讲北京的雾霾太严重。所以我们就做了一个算法把雾去掉了，把三维也算出来了，后来奥运会就成功的举办了。

比如说传统的去雾算法是这样的，等我们去完雾以后是这样的，我们不但把雾去掉了，还能把前景和后景进行模糊。

刚才我讲的都是在深度学习发生之前，所以很多事做的非常难。突然有一天，有一个下棋的下了几局棋结果输了四盘，所有人都知道了人工智能这个词，如果他再多赢两盘的话，今天就是我来讲了，就是科协来讲了。如果我们听到虚拟增强现实、机器人、无人汽车这里面都有深度学习的影子，深度学习改变了整个产业，深度学习的核心有三块。

一是你要设计一个网络，这个网络很多人都可以设计。但是每个人设计的网络水平是不一样的，有的人设计的网络，它的智商大概跟猴子的智商差不多，有的设计出来小学生的智商，有的设计出来博士生的智商。你设计完了以后它的脑子是空的，比如说我68年出生的时候，我是问不出来那些问题的，要经过七年的学习，最后才达到我能上小学的水平，一定要经过学习的过程。机器学习就是大数据训练的过程，大数据训练就需要超大的数据，来训练无穷大的网络。这么大的数据，这么大的网络要训练，又需要大的机器，大的GPU集群，要进行并行运算。所以这三个就是巨大的门槛，为什么说谷歌和FaceBook这些公司才能取得巨大的进展，而我们创一个小的公司，忽悠一下做一些布局，就想做人工智能，这是不大可能的，其实这是有很多准备工作要做的。

我简单讲一下人工智能深度学习的历史，其实深度学习是06年就开始出现的。06年到2011年之前一直在走弯路，基本上是不管用的，在微软里面做语音识别，取得了巨大的突破，比传统算法高了十几个百分点，以前我们都是每年走一个点，现在相当于一年走过去十年的进步。2012年又取得了更大的进步，他刚做完这件事情四个月谷歌就买了这家公司，据说是五千万美元，我们觉得这对于一个教授来说，这个钱确实是挺多的。但是后来谷歌仅过了一年又买了一家公司花了6.6亿美金，只有12个人，一个产品也没有，号称是2012年做深度学习的。

所以我跟投资人一直强调一点，我们是2011年开始做深度学习的，他们是12个人，我们是30个人，过了一年多，大家都知道了，它下棋赢了，对谷歌造成的PR效应绝对值这个钱了。紧接着谷歌、雅虎大家都开始布局，而且进展是非常快的。

首先我回答一下我们经常做的事情，比如说人脸检测，我们是全球第一个用深度学习做人脸检测的，这是非常难的图，我们基本上把所有的脸都抓出来了，这是微软做出来的效果，这是我们跟微软相比，微软漏掉的图。所以我们的人脸检测目前是全球最准的检测器，还有人脸定位，我们也是第一个用深度学习做人脸定位的，我们的五点定位和后面的六十几点和106点都是我们做的，几乎所有的公司都在说汤老师我在用你们的算法，我们有些问题想问一下。在中国基本上别人用你的东西，你是挣不了钱的，但是一定要提供售后服务，这个是业界的标准。

最近我们做的另一个有趣的工作，如果我们在互联网上看到两个人或者是几个人的照片，我们可以用深度学习来判断这两个人的关系。我们用这两个人相互的姿态和相互的表情，能判断两个人到底是什么样的关系，是亲密的关系、朋友的关系，还是敌人的关系。比如说奥巴马和拜登，我们可以判断八个纬度不同的关系。

（播放视频）我们可以在视频里实时判断两个人的关系，比如说这段视频是夫妻两个人吵架。我们可以看到他们开始吵架了，这个时候他们的关系就好了，蓝线上来了，所以我们是实时判断两个人的亲密关系。

另外一个就是我们做人脸识别，人脸识别在深度学习之前，其实真的是用不起来的，虽然你见到很多的产品。但实际上不是很管用的，后来深度学习出来以后，我们在2014年的时候做了深度学习算法。当时FaceBook也做了一个，它做到了97.35，人眼睛的识别率是97.5，我们做了98.5，做到了98.15，后来做到了99.47和99.5，我们都超过了FaceBook和人眼睛的识别率，从那以后人脸识别这件事情在很多商业上可以落地了。

因为我们战胜了FaceBook和谷歌，所以它们在外面没有在人脸上进行大的宣传。但是这并不妨碍国内的公司BAT进行宣传，几乎每家公司都宣布自己做了99%的算法，我们的算法是公开的，所有人都可以用这个算法。

另一个比较大的算法是ImageNet，这个工作有38个队伍参加，有伯克利、谷歌、微软这些大的团队都参加了，我们在2014年取得了第二名，谷歌取得了第一名，谷歌的结果是43，我们的结果是40.6，后来正式发表论文的时候我们达到了50.3，取得了最好的成绩。

这是谷歌的团队，大家可以看看谷歌团队都有谁，四大天王的人都聚齐了，而且是全明星的团队，他们今年买了1.5万台GPU，我们最后的成绩超过了他们的团队。

今年我们把重点放在视频上，在视频上我们第一次取得了全球第一名的成绩。所以我们实际上确实是战胜了FaceBook和谷歌这两个巨人。为什么GPU重要呢？因为所有深度学习的平台都是基于GPU来做的，今年选了全球十家最顶级的实验室进行下一代人工智能平台的研究，我们实验室很荣幸被选成亚洲唯一的代表，另外十家包括伯克利、斯坦福，再加上我刚才说的四大天王的学校和瑞士的学校，我们可能是唯一的后起之秀，确实是凭自己的实力挤进来了。

因为我们做深度学习是比较早的，我们从2011年开始做的，2012年、2013年深度学习真正爆炸的时候，我们领先的程度是相当明显的。深度学习就是这样的，如果你只做一件事情，比如说你只做人脸识别，你训练出来的东西就像最后训练以后，深度学习的智商就像门卫的水平，如果你只做驾驶，你最后训练出来一个出租汽车司机。其实你应该像人一样，既要上数学课，也要学物理课，也要学音乐和画画，这个时候你的大脑才聪明，我们不是为了打败谷歌和FaceBook，我们不是为了做着玩的，我们参加竞赛得到结果以后，实际上我们可以在其他的领域直接用这个战胜以前做了很久专业做这个公司的算法，所以我们在视觉领域几乎所有的方向都取得了重大的突破，所有的东西我们都在做。

这样我们才造了引擎，用这个引擎才能搜索所有的东西。我们在深度学习之前，每年发表的文章，我们总共发表了57篇，伯克利是33篇，牛津是45篇，剑桥是30篇，中国是64篇，我们跟国际顶级实验室顶级会议的数量是相当的，每个顶级会议都有一篇最佳论文，当然一两千篇要选出一篇最佳论文，排名第一的就是做人脸识别的那篇文章取得了第一名，得到最佳论文。前五名的会议我们得了五次四个会议的最佳论文，这个在所有的实验室里面是绝无仅有的。

我要感谢我们的学生，我们的学生基本上都是中国最聪明的，都是清华前几名的学生，第一、第二、第三的学生。大家知道中国的高考是很多人一起考的，我们把排在最前面的几个收到我们的实验室，就是由于他们才做出这些成绩。

下面有一个小视频给大家看一下，我们最近做的工作的简单总结。（播放视频）

我想讲的是中国是需要做原创技术的，中国原创技术应该去哪儿呢？我觉得不应该去B，也不应该去A，也不应该去T，我们应该去H。我觉得在中国只有华为是真正做原创技术的，不是说他做人工智能有多好，这是我唯一佩服的公司，而且他们的老总还亲自打车，这是非常不容易的，当然这也没有什么了不起的，我也是亲自打球的，谢谢大家。

# AI