造人工智能:除了大数据,还可“小样本”

大数据1年前 (2023)发布 aixure

57 0 0

导读：新华社北京电(记者全晓书郭宇靖)当你用手机订餐、购物、打车,享受着移动互联网带来的各种便利时,您的这些生活数据,正为人工智能贡献着力量。香港科技大学计算机科学及工程学系讲座教授兼系主任杨强说,说起人工智能,很多人可能对基于大数据的人工智能很熟悉…

新华社北京电(记者全晓书郭宇靖)当你用手机订餐、购物、打车,享受着移动互联网带来的各种便利时,您的这些生活数据,正为“人工智能”贡献着力量。

香港科技大学计算机科学及工程学系讲座教授兼系主任杨强说,说起人工智能,很多人可能对基于大数据的人工智能很熟悉,但其实还有基于小样本的尝试和迁移,这也是人工智能的一种路径。

杨强指出,拥有大数据的人毕竟是少数,这样发展下去,拥有数据越多的人,就能做出越好的人工智能产品,反过来,因为能提供更加便捷的服务,这些人又能吸引更多的用户贡献数据。如此循环,就会形成一些“数据寡头”,进而成为“人工智能寡头”。

“这会带来复杂的社会问题。从技术上来讲,小样本的迁移学习提供了一个缓解问题的方案,可以让初创公司在数据较少的领域也能提供人工智能的创新服务。”杨强说。

大数据的依赖

AlphaGo其实是个“笨小孩”

和天才的人类棋手相比,战胜李世石的AlphaGo其实是个“笨小孩”,它观摩和训练的棋局数以千万计,胜在了“勤能补拙”。

AlphaGo结合了深度学习、强化学习和蒙特卡洛树搜索这三种算法,其中最主要的原理是深度学习。所谓深度学习,即搭建多层的人工神经网络,通过输入大数据来训练它的方法。围棋的大数据约从2000年开始积累,人们上网对弈的无数棋局逐渐汇聚成了人工智能的“启蒙教材”。

事实上,目前各种风头正劲的人工智能应用,都离不开基于大数据的深度学习。不过,杨强指出,数据需求量太大正是目前人工智能的一个显著缺点。因为深度学习必须具备大数据,而经过学习训练后的知识又很难迁移到新的领域,这也导致了计算机学习效率不高。

深度学习还要求一个数据要对应一个标注,即告诉计算机一张图片或一段语音是什么意思,标注量的多少决定了人工智能的优劣。“在语音领域,你能标注1万小时,而我能标注7万小时,我就比你强。获得这种标注,虽然技术含量不高,但需要投入大量的人力和时间,因此很昂贵,像谷歌、百度这些大公司都是花很多钱让别的公司为他们标注数据。”杨强说。

拥有越多数据,就拥有越多资本,而投入越多资本,又会获得越多标注的数据。“到时,所有的人工智能创新将全都集中在几家大公司手里。做不做新的技术,做什么样的新技术,全由这几家公司说了算。”杨强说。

小样本的尝试

不必在每个领域都依赖大数据从头学起

2005年,杨强提出了迁移学习的概念,目标是让计算机把大数据领域习得的知识和方法迁移到数据不那么多的领域,这样,计算机也可以“举一反三”“触类旁通”,而不必在每个领域都依赖大数据从头学起。

在此之前,美国的科学家一直在尝试类似“案例学习”的理论,然而发展了20多年,却很难从实验室进入工业领域。

2005年,微软在其举办的世界数据挖掘大赛中出了一道关于搜索的题,当时搜索正是研究界最热的话题。“我们去参赛了,用了迁移学习的方法,把机器在别的垂直领域的学习经验迁移过来,完成了比赛作品,结果夺得了三项大奖的世界第一。”杨强回忆说。

“我们在海南种植了3000株基因各不相同的小米,然后把小米的基因、生长的外部环境以及收获时的表型数据,比如颗粒饱满度、叶子宽度等,建立一个对应的统计关系,并用机器学习的方法找出携带哪些基因的样本生长得比较好。那么,下一次,到别的地方,我们希望用更少的作物、更短的时间就找出最佳的样本。”

“与互联网短时间内动辄上千万上亿的数据量相比,迁移学习非常适合这个案例,因为在不同的地方,如果总像撒胡椒面一样种植几千、几万个样本,而且等作物成熟才能集齐数据,就耗时太长、花费太大了。”杨强说,未来迁移学习还可以应用在金融、医疗、客服等多个领域。

迁移的难点

没有形成一个理论模型

那么,如何做到知识迁移呢?据杨强介绍,首先,针对一个新领域,科学家要建立一个本体,本体包含概念以及这些概念之间的关系,比如瓶子和水杯关系比较近,瓶子和汽车关系比较远,诸如此类,把本体输入计算机作为原始知识库。然后,再对比训练好的源领域和只有本体的新领域,找到两个知识库的相似之处,将源领域知识库里没用的部分去掉、有用的部分保留,就可以把一个很大的模型迁移到新的领域了。

杨强指出,迁移学习用在相近的领域,效果比较明显。比如,国际象棋和中国象棋就比较相近,有部分棋子相同、走法相近,计算机学会了国际象棋,运用迁移学习的方法,只用观摩较少的棋局,就可以学会中国象棋。但是,象棋和围棋就相隔较远,不适宜用迁移学习的方法。

杨强的学生也在研究两个较远领域之间的迁移尝试,原理就好像摸着石头过河,两个石块之间距离太远,一步跨不过去,就在中间再铺垫一些石块,多跨几步就过去了。“其实,人也是这样,不可能学什么都一蹴而就。”杨强说。

不过,迁移学习目前也面临很多困难,比如,衡量两个领域远近的标准还没有完善；也没有形成一个理论模型,告诉大家在运用这项技术时到底去除哪部分、迁移哪部分,现在只能一个项目一个项目地去研究,通用性较差。对此,一些笃信深度学习的业内人士认为,迁移学习并不是当前热点,也未必能引领人工智能未来的发展。

“耐心一点,事在人为,谁敢说迁移学习不能给人工智能带来美好的明天?”杨强说。

# 大数据