中国,是AI大国还是AI强国?

AI1年前 (2023)发布 aixure
65 0 0
导读:在深度学习框架领域,飞桨已经取得斐然成绩,打破了谷歌、Meta的垄断。 近日,斯坦福大学发布了《2022年AI指数报告》。这份长达190多页的报告涵盖研发、经济、教育等各个方面的AI发展成果。 根据这份报告,2021年,中国AI专利申请量占全球总数的52%,专利申…

在深度学习框架领域,飞桨已经取得斐然成绩,打破了谷歌、Meta的垄断。

近日,斯坦福大学发布了《2022年AI指数报告》。这份长达190多页的报告涵盖研发、经济、教育等各个方面的AI发展成果。

根据这份报告,2021年,中国AI专利申请量占全球总数的52%,专利申请数量居世界首位。但是,在授权专利数量上,仍然落后于美国。

这个结果并不意外,作为计算机科学的发源地,美国在AI领域始终独树一帜,其它国家难以望其项背。但中国的发足追赶也是不争的事实。

在整体落后的背景下,中国AI如何实现赶超?是单点突破还是多点开花?是在商业落地领域突进还是在工程技术角度比拼,这些问题都有待探讨。

不过,在深度学习框架/平台这个基于底层创新,又服务于产业落地的交界领域,似乎给我们提供了一条中国AI如何赶超的良好视角。

1

是AI大国,但还不是AI强国

1956年,美国汉诺斯小镇宁静的一所大学内,包括诺贝尔经济学家奖得主赫伯特西蒙在内的一众知名科学家聚集一堂,召开了一场漫长的会议,讨论一个在当时的人们看来天方夜谭的话题:用机器模仿人类学习以及其他方面的智能。

这就是后来广为熟知的达特茅斯会议,这次会议时间足足长达两个月,学者们却仍然没有达成共识,但为讨论内容起了一个名字:人工智能(AI)。

时间过去66载,曾经讨论的话题有许多可能已然成为现实,AI已经从逻辑推理、专家系统来到机器学习、深度学习的第三次发展浪潮,迎来发展的爆发期。

客观的说,最早提出AI理论的美国在整个AI发展的全球化潮流中,在基础技术创新、商业化落地等领域,依然独占鳌头,在学术研究、实践应用等方面也均有着他国无可比拟的水平。

不过,中国也有独特的优势。

很多人都知道,AI研发的三要素是算法、算力和数据,但这只是技术意义上的要素。更重要的要素,其实来自于需求和场景,在这方面,中国有14亿人口的庞大国内市尝有不少世界级的超大规模互联网平台、有大量来自传统产业转型升级的新基建需求,它们决定了除了美国之外,再没有任何一个经济体拥有与中国竞争成为AI创新的世界级策源地的底蕴,包括科技发达的欧盟。

的确,关于AI,我们有很多很好的政策,也有不错的数据和成绩。

比如,早在2016年,“人工智能”一词就已经被写入我国“十三五”规划纲要。这之后,相关利好政策频出,AI企业的发展随之进入快车道,融资数量和金额都在快速增长。

例如,2016年以来,中国AI投资领域每年融资事件平均约1000 起。在过去的2021年,中国发生了1132起相关行业投融资事件,累计金额3996.4亿元,较2020年增长51.44%,再创新高。

又比如,在AI最为核心的算力水平,中国的发展速度同样不容忽视。有报告显示,过去一年,各国算力评分均有提升,但中国增幅最大,以总分70分进入全球领跑者行列。

还有,中国可能是发表AI会议出版物数量最多的的国家,已经成为AI专利“账面上”的全球第一。

但这不是我们盲目乐观的理由。

AI毕竟是要通过应用才能发挥实际效能的。

而根据斯坦福大学发布的《2022年AI指数报告》,美国在授权专利数量上占全球总数的40%,排名世界第一。

这个数据的意义是,获得专利授权才能“证明你的专利实际上是可信并且有用的”。这有点类似于出版物数量和被引用次数的情况。也就是说,中国的研究成果很多,但在真实落地上的影响力和美国仍存在一定的差距。

某种程度上,这当然是因为美国在AI以及整个计算机科学领域,有着不是一星半点的先发优势。

但某种程度上,即使在美国,AI也是极少部分有前瞻精神的学者,在公众普遍看不到AI潜力的情况下,坚持努力、筚路蓝缕开创的结果,这种精神才是值得我们学习的。

回顾历史,深度学习的发展实际上经历了从边缘化课题走向主流技术的路径。“教父”级人物杰弗里辛顿对神经网络的探索最早可以追溯到上世纪80年代初期,当时的AI不仅是边缘,还是低谷。但正是少数人的努力,比如像辛顿这样,将神经网络带入到研究与应用的热潮,将“深度学习”从边缘课题变成了谷歌等互联网巨头仰赖的核心技术,使人工智能发展到今天这般炙手可热。

更值得一提的是,辛顿早在2013年就意识到企业可能比学校能提供更好的AI研究场景和数据、算力,于是他在2013年进入谷歌,由此推动了一系列AI技术的产品化。

但是,对于矢志成为人工智能全球中心的中国来说,追赶也同时开始了。

2

为什么是深度学习框架?

从表面上看,2015年-2016年是AI技术走进公众认知的一个分水岭。

2015年的年尾,谷歌对外发布了迄今为止仍然占据深度学习主流框架位置的TensorFlow,其支撑的AlphaGo在2016年3月的人机大战中以4:1战胜世界围棋冠军李世石。深度学习的概念由此开始被越来越多的“外行人”知晓,更新迭代也日新月异。

杰弗里辛顿曾在一次演讲中讲道:“深度学习以前之所以不成功是因为缺乏三个必要前提:足够多的数据、足够强大的计算能力和设定好初始化权重”。而现在,这些困难正在被逐渐抹平。

业界有一句名言是,搜索引擎是现有的最大的人工智能项目。这一点,在中美两国都得到了确证。

早在2011年,谷歌已经通过Google Brain(谷歌大脑)内部孵化了一个叫做DistBelief的项目。随后,包括杰弗里辛顿在内的大批科学家、工程师对其进行改造,才有了后来声名鹊起的TensorFlow。

无独有偶,在中国产业界,最早孕育出人工智能特别是深度学习框架的,也是搜索引擎公司。

在现有的记录中,百度自发应用人工智能技术最早可以追溯到2006年,深度学习这一波强势崛起后,百度也是国内最早能够“看到”深度学习技术及应用的潜力的,某种程度上,百度同样属于早期的深度学习开拓者之一。例如,2013年,百度率先建立全球首个专注深度学习研究的深度学习研究院。

这里要重点讲一下的是,为什么百度在AI研发中,逐步选择了深度学习框架/平台作为核心突破口。

事实上,百度最早的应用人工智能,并不完全是自上而下的,相反有某种自下而上的趋势,人工智能犹如火种,在百度的不同体系、架构、产品中,逐渐出现了不同层次的应用。

可以说,深度学习框架是绝大多数人使用人工智能的起点,再往前则是通过手工搭建模型,这是属于部分科学家和高级工程技术人员的专利,它们太难也无法推广。

当时百度的内部,不仅在使用不同来源的早期深度学习框架,甚至是不同部门都开始了自行研究深度学习框架。

“研发随着业务走”也是一种常态。但深度学习的星火燎原,引发了百度高层的关注。

在超大型互联网平台中,不同业务、不同部门使用不同的技术底座是很常见的事情,部门墙也是很难穿透的。但百度这次做了一个决定,要把深度学习的技术底座统一到一个框架中来,实现集中资源重点突破。

为此,百度梳理了各个部门的需求,从某种程度上来说,这些部门的需求其实就代表着当时中国产业界对AI应用需求的最高水平,而汇集并设计一个可以包容这些需求的框架,则可以解决许许多多个企业、行业降低AI应用门槛的问题。

相较于很多出自高校、历史久远、演变曲折的框架,飞桨一开始就奠定了“产业级”深度学习框架的基矗

基于已有的技术积累,百度在2016年正式对外开源PaddlePaddle框架;而三年后的2019年4月,PaddlePaddle正式发布中文名飞桨。

而在美国,2018年时,在GitHub的活跃度、Google上的搜索量、知名科技媒体Medium上的文章数量以及arXiv上的论文数量,TensorFlow所占比重都是最多的。

同年,也是2018年,Caffe2代码并入PyTorch ,Facebook主力支持的两大深度学习框架合二为一,PyTorch的发展驶入快车道,如今,PyTorch已经在学术论文圈形成了绝对的优势。据统计,在Hugging Face上有85%的模型是PyTorch独家的。

百度在观察到这两大世界级框架的各自长短板后,毅然做出了一个重要的决定。

3

为什么是PPT?

飞桨能够成为Pytorch和TensorFlow之外的世界深度学习框架第三极,真正的弯道超车来自一个重大的决定。

美国的两大框架一个在学术圈受欢迎,一个在产业界受欢迎,而飞桨要形成差异化致胜,并尽可能把学术界和产业界的精锐集中到一个生态中来,唯有走一条不同的路从单纯的产业级框架,变成一个打通产业界和学术界藩篱的通用型框架,它既是产业级的,也同样要是学术界深度欢迎和拥抱的。

为了一切从实际出发,飞桨研发人员经常深入到QQ群接受开发者反馈的问题,及时予以解决。这种把开发者需求放在首位的低姿态,既帮助飞桨获得了不少开发人员的拥趸,也促进了飞桨的快速发展。截至2021年底,飞桨PaddlePaddle已经汇聚406万开发者,创建了47.6万个模型,服务15.7万家企业。

从市场份额看,IDC发布的报告显示,在中国深度学习平台市场,2021年上半年,百度的综合份额持续增长,已经超过Google和Meta(Facebook),跃居第一。

《2021中国开源年度报告》也提到,2021年GitHub中国项目活跃度Top30中,飞桨占据5个项目,其中飞桨框架位列榜首。

这使得我国AI技术开发者和使用者不再依赖于国外平台,同时也为进一步培育自主可控的AI开发应用生态奠定了扎实的基础,更是中国在计算机科学的基础领域非常突出的世界级成就。

至此,飞桨PaddlePaddle、PyTorch、TensorFlow形成三强鼎立局面,深度学习框架步入“PPT”时代。

但这并不是故事的终点。

随着深度学习的理论研究日趋成熟和深度学习框架的快速迭代,AI技术的应用和普及进入加速期,但在具体实践应用过程中仍存在许多痛点。

比如,人工智能模型的生产成本仍然很高,而在企业实际应用中也存在适配等各种疑难杂症。就此,飞桨在模型库中为开发者提供了一套全流程指导。从前期适配到后期运行,飞桨都提供了相应方案。

具体而言,在前期数据处理、模型选择时,飞桨能够通过自己的方式帮助企业选择一个合适的场景。在此之后,飞桨还会对部署芯片的效率进行跟踪,在出现准确率不高等问题时快速提供反馈指导。

换句话说,这套指导不仅仅是一个学术界的算法,而是真正根据行业需求所梳理设计的环节。

此外,由于某些行业的特殊要求,如零件质检对速度要求非常高,有限的算力很难同时在速度和精度上达到极致。为此,针对这些痛点,飞桨通过对算法模型的优化设计了PP系列模型, 实现精度和性能两者间的平衡。

截至2021年,飞桨已经发布13个PP系列模型,官方提供的算法模型库更是已经超过500个。在训练这些模型过程中,飞桨总结了自己的一套方法论,在一定程度上,加快了训练速度。

百度AI技术生态总经理马艳军告诉雷峰网,深度学习框架要解决的一个长期研发问题就是提升训练效果。为此,飞桨做了很多工作去提升训练性能。

据马艳军介绍,训练性能主要包括两个层面,一是跟训练芯片间的联合优化,充分发挥硬件本身的算力;二是针对深度框架本身执行调度的优化。同时也结合模型设计进行全链路优化,最终实现提高训练速度的目的。

可以说,从始至终,飞桨在每一个步骤的设计、优化上都为保障后期训练速度提供了助力。

经过努力,飞桨大约70%的模型训练速度已经快于业界最快水准。这些模型主要包括两类:一是通用模型,比如芯片适配是在所有地方都会应用到的。二是基于飞桨视角,所发现的需求量大的应用场景。例如,图像分类在物流、电商等场景应用非常普遍。

飞桨在发挥硬件算力性能上也几乎发挥到了极致,得到了包括英特尔、英伟达、ARM等诸多芯片厂商的支持,同22家国内外硬件厂商完成了31种芯片的适配和联合优化工作。值得一提的是,不少硬件厂商还主动在开源社区为飞桨贡献代码。

像英伟达这样的深度适配芯片,飞桨更可以将其所能用的算力充分发挥出来。

在深度学习框架领域,飞桨已经取得斐然成绩,打破了谷歌、Meta的垄断,成为中国深度学习平台名副其实的行业第一。

当然,不可否认,到目前为止,深度学习框架适配仍较为复杂,有些行业的低频长尾问题尚不能通过AI得以解决。但这正是飞桨一直在努力解决的问题,而且也的确已经小有成绩。

马艳军坦言,“尽管深度学习框架属于高投入、长周期、抢生态的竞争,但已经得到国家和企业的战略性支持,是开启下一个AI时代的钥匙。”

人工智能的下一个十年,飞桨以及中国AI将书写怎样的传奇,我们不妨拭目以待。

版权申明:凡本公众号内容注明【原创】的,内容版权归本作者所有,未标注【原创】的图片与文字内容均转载自网络,版权归原创者所有,图片和文字如有侵权烦请告知我们,我们会立即删除。谢谢!

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...