鹏城实验室网络智能研究部副主任兼云脑研究所所长田永鸿
“从2021年1月正式运营到今天,鹏城云脑Ⅱ已经平稳运营一年零九个月。期间,项目团队训练出一系列大模型。从最早推出的业界首个超大参数中文预训练模型鹏程.盘古,到后来推出的鹏程.神农、悟道2.0等,我们团队在研发过程中不断突破,基于云脑Ⅱ进行大模型训练,这在之前是没有过的。”近日,刚刚被华为聘为腾MVP的鹏城实验室网络智能研究部副主任兼云脑研究所所长田永鸿教授,围绕我国人工智能发展的机遇与挑战、“鹏城云脑Ⅱ”的运营效果,接受了《中国电子报》记者专访。
“鹏城云脑Ⅱ”自上线运营以来,亮点不断。2021年7月,IO500排行榜蝉联全系统和10节点规模系统两项世界冠军,其中全系统输入输出性能超越第二名近20倍;同年11月,AI Perf500排行榜蝉联世界第一;2022年7月,IO500第四次获得全系统榜单第一。依托“鹏城云脑Ⅱ”的E级智能算力,开发并训练出华为云盘古NLP以及鹏程.盘古两个大模型,其中鹏程.盘古是目前业界最大的中文自然语言处理模型(稠密)。2021年9月再次发布面向生物医学行业的鹏程.神农平台,为制药行业打开新大门。
在鹏城云脑的实践中,有哪些经验是值得我国人工智能产业借鉴的,又有哪些挑战是需要共同面对的?
为什么用腾
“当时鹏城实验室需要一个人工智能的大科学装置,而我们做这个装置的定位是首选本土的、掌握自主技术的企业。”田永鸿说,“中国一定要有自己的技术。”
在鹏城实验室选择华为时,距腾AI芯片推出仅有一年左右的时间,当时华为在松山湖园区基于腾建设了一个小型计算集群。而AI不仅仅是芯片的问题,更重要的是需要有从底层到基础软件、应用软件一个完整的产业链,从一个芯片到一个系统、一个生态,这中间有很多的路要走。谈到当年的状况,田永鸿说,有利的一面是当时华为有底层硬件,中间算子层的异构计算架构CANN,上层有AI框架思MindSpore,形成一个初步的全栈结构,不利的一面是当时腾并没有形成很好的生态体系,而且华为此前没有做大规模超级计算的经验。
虽然存在一些难题,但是可以突破。
在确定双方的合作之后,整个“鹏城云脑Ⅱ”大科学装置从决策到建成用时十个月。“建成鹏城云脑二期,我们真正把AI,从底层硬件,到基础软件,如CANN、MindSpore、MindX、ModelArts,再到上层应用软件实现整体的打通,并且在大规模机器上进行了验证和仿真。”田永鸿说,“在这个过程中,华为和鹏城实验室一起做了很多努力,比如开发更多的算子、丰富相应的算法、优化相应的框架。在这个过程中体现出华为是真正能够做事情的一家企业。”
此后,华为把在“鹏城云脑Ⅱ”的经验在武汉人工智能计算中心的建设中做了拷贝,单从规模之大、训练强度之大这个角度看,目前国内的人工智能中心还没有哪一家能出其右。
最耀眼的星
“在2020年10月加电启动试运行后,鹏城云脑是我国采用自主技术实现的第一台E级AI算力平台;在不计入超算平台的情况下,也是国内迄今为止唯一的一个E级AI算力平台。”田永鸿对记者表示。
在2021年11月18日全球超级计算大会(SC21)上发布的新一期国际IO500排行榜中,鹏城实验室与华为联合研制的“鹏城云脑Ⅱ”人工智能大科学装置以极具优势的评测分数连续第三次获得IO500全系统榜和10节点规模榜两项世界冠军,展示了“鹏城云脑Ⅱ”在AI算力和数据吞吐能力上的世界顶尖水平。
“鹏城云脑Ⅱ”在模型训练中的状态也越来越好。
2021年5月,鹏城实验室用它来训练中国第一个中文的自然语言处理模型盘古模型,模型大约有2600亿个参数,比美国谷歌GPD3的1000多亿参数规模还要大,时任微软高级副总裁沈向洋院士说微软训练GPD3的模型花了1000多万美元,用时两三个月。而鹏城云脑训练规模更大的盘古模型,只花了接近一个月左右,整个成本算下来是对方的1/10甚至更校可以说,鹏城云脑Ⅱ至今依然具备国内领先的AI计算能力。
2021年9月,鹏城实验室发布了鹏程.神农大模型,这是鹏城实验室基于“鹏城云脑Ⅱ”超大规模AI算力集群和思AI框架打造的生物医学领域的AI平台。鹏程.神农包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测、新抗菌多肽设计与效果评价等模块。制药企业和医学研究机构可以使用鹏程.神农提供的AI能力,加速新型药物的筛选与研制。以抗菌肽为例,借助鹏程.神农强大的氨基酸序列生成能力,结合现有抗菌肽数据集,可在短时间内产生数万种候选肽的氨基酸序列,再经过生物实验和临床验证,便可极大加速新型抗菌肽的发现。
在深圳市建设智慧城市的过程中,鹏城实验室与深圳市合作,通过训练视觉模型,帮助AI视频企业对戴口罩的人做识别和测温的模型为深圳打造了全球首个把抗疫与城市的交通、社区管理联动的立体抗疫典范。在疫情流调方面,“鹏城云脑Ⅱ”与华为团队合作训练精准的流调模型,使得未来的抗疫流调只针对少量的人,可以更精准有效地开展流调工作。
“在‘鹏城云脑Ⅱ’的运行中,我们一直是开放共享的,整个鹏城云脑Ⅱ的算力使用分配已经接近97%,处于饱和运营状态。在这个过程中鹏城实验室自己用的大概只有1/4算力,有很大一部分要么是‘鹏城云脑Ⅱ’与其他单位合作,要么直接是其他单位来用这些算力,我们还专门分配了一部分的算力给深圳的中小企业。”田永鸿说,“为了支持他们,我们也开发了许多基础软件、基础的算法供这些企业使用,我们期望‘鹏城云脑Ⅱ’成为支撑科学研究的AI算力主力,成为支撑包括深圳在内的粤港澳大湾区数字经济发展的引擎。”
一步一步完善生态
“在人工智能领域,腾是一个新兴的生态系统,相比已经做了十多年的英伟达的生态系统,客观地说,腾在软硬件体系、算子等方面还有很多功课要做,但我认为这是可以理解的。”田永鸿说,“腾生态的发展速度是比较快的。华为以前没有做过那么大的云脑Ⅱ系统,很多问题都是他们的设计师、工程师没有想到的。在我们双方配合、攻关中,华为团队非常给力,对我们的需求以及出现的问题,他们响应速度非常快,也经常主动问我们哪里还存在问题。”
在2020年10月份的一次评审会上,有院士问田永鸿,腾的算子对TensorFlow或PyTorch的支持比例是多少?“我当时闭着眼睛说70%,其实那个时候也许只有60%多。但是现在我认为已经达到80%~90%。算子开发需要很多的人力、很多的分析。同时,AI领域发展很快,算子增长也比较快。”田永鸿说,“总体来说,我知道华为后面有很大的团队专门负责丰富生态,从底层的算子到上层的MindSpore开发框架,再到相应的应用框架都做得非常好。”
在生态兼容性上,腾已经支持了百度的自然语言模型“鹏城-百度.文心”,百度.文心去年在“鹏城云脑Ⅱ”重新训练了2.0版本,并发布了全世界最大的面向中文的自然语言理解模型。“百度.文心模型能够在鹏城云脑上面跑,首先证明鹏城云脑基于腾AI基础软硬件平台,也可以适应其他的软硬件体系,百度采用的开发框架是其自己的PaddlePaddle,而这一框架能够在以腾为基础的架构上运行,本身就代表腾体系可以支持不同的开发框架。目前,百度.文心大模型已经用于大量的百度产品中,包括机器翻译、搜索引擎等应用场景。
其实,鹏城实验室在关注腾生态的同时,也在关注着国内的AI企业进展。“我们曾经想过是否可以在本土企业中,找一些其他企业做替代方案,特别是在设置新一代机器的时候。但通过调研发现,目前只有华为能满足我们的要求,没有其他企业可以替代。”田永鸿说,“AI领域在不断地发展,每天会面临很多挑战,我们希望华为有更多投入、更快的发展速度,特别是要抓住产业发展和市场机遇,迎难而上,把中国的AI,特别是高端的AI芯片、AI的服务器、AI的超级计算机、AI的软件环节做起来,支撑中国人工智能产业的发展。”
作者丨刘晶
编辑丨徐恒
美编丨马利亚
监制丨连晓东