国内GPU公司天数智芯在WAIC 2023上展示的板卡产品(来源:受访者提供)
今年以来,随着ChatGPT和人工智能(AI)大模型引发热潮,大模型产品层出不穷。随之而来的是对 AI 算力的需求,也出现爆发式增长,算力供需出现巨大缺口,所有人都开始抢购美国芯片巨头英伟达的A100显卡作为大模型“入场券”。
如今,大算力底座已成为 AI 大模型发展的“标配”。
7月6日-8日举行的2023年世界人工智能大会(WAIC)腾分论坛上,华为轮值董事长胡厚表示,伴随大模型带来的生成式AI突破,AI 正在进入一个新的时代。算力是 AI 产业创新的基础,大模型的持续创新,驱动算力需求的爆炸式增长。可以说,大模型训练的效率或者是创新的速度,根本上取决于算力的大校中国的算力已经成为一个越来越稀缺的资源。
本届WAIC上,华为推出首个腾万卡AI集群。截至目前,腾AI集群已支撑全国25个城市的人工智能计算中心建设。据悉,腾AI原生孵化和适配了30多个大模型,目前中国有一半左右的大模型创新,都是由腾AI支持。
与华为腾不同,国内通用GPU公司天数智芯研发的天垓100芯片已经开始跑通多个大模型,包括智谱 AI 大模型ChatGLM,国外主流的LLaMA,以及北京智源研究院的Aquila等产品;而百度昆仑芯公司在今年6月披露,其产品矩阵已适配文心一言、ChatGLM、GPT等主流行业大模型。
本届WAIC上,当被问及如果英伟达A800不能在中国售卖国产GPU能否替代,天数智芯董事长兼CEO盖鲁江对钛媒体App等表示:
“目前我们已经证明可以用了,不管他们的能不能买,或者卖不卖给中国,我们的产品现在已经在用起来了。”
基于目前国内 AI 大模型算力布局,无论是训练还是推理,AI 大模型算力主要分为三派:
一是华为鲲鹏和腾 AI 生态的算力方案,没有英伟达GPU参与;二是混合型算力支持,大量采用英伟达A100芯片,部分环境增加AMD、英特尔芯片,以及天数智芯、寒武纪、海光等国产芯片及加速卡融合跑大模型训练;三是租用性价比更高的服务器云算力,补充算力不足情况。
那么,这么多的算力供应渠道,中国本土的AI芯片到底行不行?
没有英伟达GPU,华为腾支持近半数大模型
“没有大算力做大模型就是天方夜谭。”中国工程院院士、鹏城实验室主任高文在WAIC 2023腾人工智能产业高峰论坛上表示,从现在开始,算力已经成为是数字经济发展的一个指标,算力够,你的数字经济就能发展好,不够就发展不好。
据中国信通院数据,每1元的算力投入,可以带动3-4元的国家GDP(国内生产总值)经济产出,实现经济增长的倍增效应。麦肯锡则预测,生成式 AI 最终每年可为世界经济增加7.3万亿美元的价值。
7月8日WAIC大模型生产与产业落地合作论坛上,一位中国科学院研究中心主任甚至直言,“没有算力平台,数字经济将‘不复存在’。”
而对于大模型企业来说,巨大的算力成本是首先要考虑的问题。
本届WAIC上,毕马威和联想集团联手发布的《普慧算力开启新计算时代》报告显示,以构建GPT-3为例,OpenAI数据显示,满足GPT-3算力需求至少要上万颗英伟达GPU A100,一次模型训练成本超过1200万美元,这还不包括模型推理成本和后续升级所需的训练成本。
在WAIC腾讯分论坛上,NVIDIA英伟达全球副总裁、中国云计算和互联网行业总经理何涛提到,到了大语言模型的时代,算力必须发展。如果数据足够大,算法模型也足够大,算力需求也特别大。
所以,华为提出了鲲鹏和腾 AI 算力方案,没有英伟达GPU,重点应用于政务、金融等领域,在智算中心实现模型训练,随后在华为云或其他混合云中实现模型推理。
本届WAIC上,华为宣布腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。同时,华为还与知乎/面壁智能、清华智谱AI、科大讯飞、云从科技等多家拥有大模型的公司联合发布的腾AI大模型训推一体化解决方案,建立“生态包围网”。
胡厚表示,华为在各个单点创新的基础上,充分发挥云、计算、存储、网络以及能源的综合优势,进行架构创新,推出了腾AI集群,相当于把AI算力中心当成一台超级计算机来设计,使得腾AI集群性能更高,并且可靠性更高。“据我所知,目前我们已经可以达到10%以上的大模型训练效率的提升,可以提供10倍以上的系统稳定的提高,支持长期稳定训练。”
胡厚在开幕式上谈到,华为推出了对等平构架构,以突破传统以CPU为中心的异构计算带来的性能瓶颈,提升了整个计算的带宽,使得节点的性能可提升30%。同时,华为部署的腾AI集群实现10%的效率提升。
“中国的算力很难跟上不断增长的 AI 需求,而且 AI 算力缺乏稳定性。许多公司花高价购买英伟达GPU,但训练中GPU会出现故障不得不重新训练,交货时间很长、代价大。我们希望在 AI 算力方面提供一种替代方案。”7月7日华为云CEO张平安在华为云盘古大模型3.0发布会上直言,由于华为不可以用英伟达成熟的GPU,所以华为使用的自研的鲲鹏和腾AI算力方案,建立智算中心训练大模型。
张平安指出,华为云在贵安、乌兰察布、安徽芜湖等地都建立了算力中心,训练效率领先于业界主流GPU的1.1倍,腾Al云服务整个算力达2000PFlops。
华为腾计算业务总裁张迪煊表示,基于腾AI,原生孵化和适配了30多个大模型,到目前为止,中国有一半左右的大模型创新,都是由腾AI来支持的。腾的生态也逐步发展壮大,有180万开发者在腾开发平台上工作;与300多所高校院所与腾开展合作,每年培养超过10万名专业的AI人才。
本土算力持续追赶,但GPU软件生态仍需时日
除了华为之外,以阿里云、腾讯云、字节、商汤等企业为代表的算力底层,囤积大量的英伟达A100、T40芯片组进行模型训练,部分智算中心则增加AMD、英特尔芯片,以及天数智芯、寒武纪、海光等国产芯片,为客户提供异构、混合型算力支持。
智算厂商方面,阿里云表示,其拥有国内最强的智能算力储备,阿里云的智算集群可支持最大十万卡GPU规模,承载多个万亿参数大模型同时在线训练,拥有大规模AI集群。而在AI平台层,阿里云将AI训练效率提升可达10倍,推理效率提升可达6倍。目前,阿里发起的AI模型社区魔搭已拥有180多万AI开发者、900多个优质AI模型,以及30多个10亿以上参数规模大模型。
腾讯云则大量采购了英伟达A100/H800芯片,发布新一代HCC高性能计算集群,实现业界最高的3.2T超高互联带宽,提供高性能、高带宽和低延迟的集群算力,用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群,腾讯团队在同等数据集下,将万亿参数的AI大模型“混元NLP”训练由50天缩短到4天。据悉,腾讯云服务器组还使用了AMD、燧原科技的芯片产品。
火山引擎副总裁张鑫泽透露,其拥有庞大的算力支持,亚州/美洲有数百万CPU核心、超过20PB内存、数万张GPU计算卡,训练系统单日样本吞吐最超百万亿,高峰时GPU利用率达90%。此前消息称,字节跳动目前已经购买和到货英伟达A100/H800加速卡共10万块。
据联想和毕马威的分析报告预计,阿里云目前拥有200-300万台服务器,腾讯云拥有100-200万台服务器,字节跳动和华为云拥有约100万台服务器。
与此同时,从芯片端看,目前在加速计算/大模型算力领域,英伟达在全球市场占比高达95%以上,甚至可达99%。英伟达无论产品力还是CUDA算力生态构建,都是首屈一指,也“收割”了本轮AI热潮以来最大的利润。
据登临科技联合创始人王震宇估算,2022年,英伟达在中国市场的数据中心产品销售额约400亿元,按照行业机构预估,到2026年将会达1000亿元,这是在ChatGPT爆火之前的预测。
在WAIC 2023上,盖鲁江告诉钛媒体App,天垓100是该公司2018年研发的通用 AI 训练芯片,目前这款产品目前已经成功跑通了清华智谱 AI 大模型ChatGLM,Meta研发的LLaMA模型,北京智源研究院的Aquila模型等。
“现在大模型发展的核心三要素:算法、数据及算力,算力是底座。在6月9日,我们跟北京智源研究院,在北京发布了他们的AquilaCode-7B模型,用的就是我们天垓100这款产品在跑,这也充分体现了天数智芯产品的通用性。目前我们正在帮他们跑650亿参数的模型,预计10月份可以跑完。”盖鲁江表示,预计今年年底以及明年,天数智芯都会有新的产品推出来,而且对大模型算法做了硬件级优化。
如果不采用通用架构,客户进行平台切换门槛比较高。盖鲁江表示,天数智芯在第一阶段就走了一条兼容国际主流生态的路线,公司2022年全年确认收入在2.5亿元左右。“因为我是通用架构,基于我的硬件去做软件栈的开发,再在API接口层面兼容国际主流生态,这样其实让我们的下游客户能更方便地用起来,让他们的迁移成本很低。所以说在商业化这条路上,我们已经率先迈出了一步。”
另一家腾讯投资的AI芯片公司燧原科技。已拥有邃思系列芯片、云燧训练和推理加速卡和云燧智算机的全系列算力产品线。在WAIC 2023上,燧原科技发布了全新文生图MaaS平台服务产品“燧原曜图(LumiCanvas)”,利用燧原科技的算力以及首都在线的基础设施,实现文生图模型训练和推理。
燧原科技创始人、董事长、CEO赵立东在本届WAIC AI芯片论坛上提到,目前燧原已经为大型科研机构部署了千卡规模的AI训练算力集群,并成功落地;而且与腾讯合作,在OCR文字识别,智能交互,智能会议等方面,性能达到了业界同类产品两倍以上,性价比上具有很高优势。此外,在智慧城市方面,燧原完成2022年成都高新区国产化AI视频基础设施平台项目建设。
钛媒体App在现场了解到,燧原科技公开的生态伙伴已包括腾讯、上海银行、中国移动、中国联通、新华三、卓视智通、北京智源、中科院计算所、之江实验室、清华大学、西安交通大学等30家以上的机构。
今年7月7日获得中国互联网投资基金独家投资的通用GPU研发商上海登临科技,在WAIC现场展示了第二代通用GPU Goldwasser(高凛)系列产品。钛媒体App了解到,高凛二代已针对基于Transformer和生成式AI 大模型进行专门优化,在性能有大幅提升,已于2022年流片,目前已开始规模化量产和商业客户验证。据现有客户测试结果,二代产品针对基于transformer类型的模型提供3-5倍的性能提升,大幅降低类ChatGPT及生成式AI应用的硬件成本。
最后一类是服务器云和各地算力中心,大模型公司与其合作/租用形式,补充算力训练不足的情况。而在服务器底层则依然用英伟达、鲲鹏、寒武纪、海光等产品。
例如,北京超级云计算中心官网披露,拥有超过50PFlops通用超算算力,超60万CPU核心数,超过20万算力用户;上海到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1000 PFLOPS(FP16)以上;到2025年,上海市数据中心算力预计将超过18000 PFLOPS(FP32)。
今年6月初,鸿博股份透露,搜狗创始人王小川成立的大模型公司百川智能(五季智能)和其签署了一个1280P的订单;二期正在推进,具体将围绕客户需求展开。据悉,鸿博股份全资子公司英博数科将在协议签署后的12个月内向五季智能提供高性能GPU算力出租服务,1期交付不超过256台服务器总计不低于1280P算力。
不过目前,国内 AI 算力、国产GPU芯片还存在制程工艺和产品规格限制、没有双精度浮点功能、没有CUDA这种完整生态、与其他芯片之间的解耦性较差、通信网络连接问题导致算力损耗高等挑战亟待解决。
多位行业内人士对钛媒体App透露,当下大部分模型训练领域仍会用英伟达产品,但信创、政务等数据私有化程度高的领域会更多采用本土算力。
“全球CUDA生态的注册开发者人数接近400万,多年来大家一直在沿用这一生态架构。因此,国内GPU企业现在面临生态迁移问题,操作系统、编程系统不一样。如果企业要换一个新的生态,就要做大量代码性的迁移及改变,这个成本及时间是非常高的。”盖鲁江透露,天数智芯在持续加大这部分投入,但这需要行业上下游企业共同研发,需要时间和过程。
“中国目前大算力芯片的发展还处于起步阶段。”清华大学电子工程系长聘教授、系主任汪玉认为,天数智芯、燧原科技、寒武纪等本土芯片算力如何做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。
启明创投合伙人叶冠泰表示,大模型时代,训练千亿参数、万亿参数的模型必不可少的就是算力,大模型参数规模的高速增长对GPU的能力不断提出更高的要求。大算力的GPU要支撑各种各样的模型,需要具备稳定性、扩展性、延迟控制、性价比等,展现出典型的“木桶理论”,而且大算力芯片的推广,需要整个上下游的生态支持。AI的时代已经到来,芯片公司需要和大模型公司紧密合作。
据毕马威和联想联手发布的报告数据显示,放眼全球,算力已成为各国科技战略布局重点。当前,美、中、欧、日基本稳居全球算力产业规模前四,美、中两国处在领先地位且中国算力规模增速明显领跑。各国算力投资或补贴计划均超千亿。
经初步测算,到2025年,数据中心、云计算、人工智能市场规模总计将突破2.5万亿元,算力核心产业规模将不低于4.4万亿元,关联产业规模可达24万亿元,成为与新能源汽车比肩的超万亿级高潜赛道。
华泰证券研究所科技行业首席分析师黄乐平在WAIC上表示,未来AI应用的逐步丰富将推动推理芯片等相关市场保持强劲增长,算力需求增长会率先利好算力芯片、光模块、服务器产业链等“送水人”。
“芯片半导体行业没有捷径可言。专注于产品研发和与用户的合作,踏踏实实做事,最后用产品说话。倾听客户需求是重中之重。”壁仞科技合伙人梁刚在WAIC 2023启明创投分论坛上称。据悉,今年WAIC,寒武纪、壁仞科技等部分 AI 芯片公司没有参展。(本文首发钛媒体App,作者|林志佳)