记者 | 彭新
由OpenAI开发的聊天机器人ChatGPT于去年末发布后,由于表现惊艳,近期在全球刮起了一股猛烈的旋风。微软和谷歌等巨头在此类技术上投入巨资。在国内,百度和其他互联网公司也表示正在开发此类技术,并即将推出。
GPT即预训练大语言模型(Generative Pre-trained Transformer),其基于自然语言处理模型Transformer进行预训练,并不断迭代提升模型能力。大语言模型等此类生成式AI通过海量数据训练,可以产生前所未有的高质量输出,可用于搜索、对话机器人、图像生成和编辑等。
微软使用ChatGPT技术,将其引入搜索引擎必应,借助对话式人工智能(AI),通过准确理解人类提问意图并做出回答,给搜索带来革新。除了文字,预训练大模型还能生成图像,与真人作画相比不分高下的AI画师过去数月多次涌现。
ChatGPT崛起,相关应用用户快速增长下,对运算基础的算力要求越来越高,也将对相关的芯片提出了需求。因其背后技术将高度依赖AI处理能力,并涉及与之相关的网络、存储和算力基础设施。
GPU为AI计算主流
ChatGPT高度依赖AI计算能力,而向OpenAI提供GPU芯片的英伟达正成为最大受益者,摩尔线程摩尔学院院长李丰解释,当人工智能模型通过算法生成内容时,即需要大量数据进行训练,这一过程即在GPU集群进行,随后训练完成的模型又部署在GPU集群进行推断,完成图像生成、语言聊天等工作。
“人工智能的算法是在不断进步和迭代过程当中,GPU实际上兼顾了灵活度以及计算能力,”李丰称,相比专用的AI芯片,GPU灵活性更强,又可以保证AI计算性能,因此受到开发者的欢迎。他提及,在全世界范围内,主要的增长算力的来源来自于GPU。
目前,ChatGPT背后的GPT-3.5模型已有超过1750亿个参数,训练成本高昂,根据国盛证券报告显示,GPT-3训练一次的成本约为140万美元,对于一些更大的大型语言模型,训练成本介于200万美元至1200万美元之间。
以ChatGPT在今年1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU图形处理器,初始投入成本约为8亿美元。此外,据花旗集团预估,ChatGPT将可能促使英伟达相关产品在12个月内销售额达到30亿至110亿美元。
这意味着,ChatGPT等此类应用将会拉动英伟达GPU芯片需求。英伟达公司的GPU图形处理器在大型AI模型培训市场占据主导地位,其股价今年已大涨55% 。
一家大型IT厂商的人工智能部门负责人向界面新闻记者表示,目前在训练端,英伟达是毫无疑问的冠军,其他玩家争夺的市场在于推断端,这部分的任务量较小,对功耗、延迟更敏感。李丰就提及,摩尔线程已经在内部测试,完全部署在摩尔线程GPU上的AIGC平台不久即面世,这是包括了图像生成、自然语言生成等一系列的内容生成平台。
除了GPU,涉及计算能力的芯片类型还包括CPU、FPGA、ASIC等,不同类型的计算芯片进行组合,可以满足不同AI模型的计算需要。
专用AI芯片ASIC(专用集成电路)也有望未来在AI算力中占据一席之地。谷歌此前发布了自研TPU(张量处理器)并多次迭代,这是谷歌特别设计用于机器学习的芯片。依照谷歌提供的数据,TPU计算效率是过往GPU十倍以上。谷歌将TPU部署在自家云平台上,未来该公司将推出的对话式AI服务Bard,也将基于TPU运行。
小众芯片HBM走向前台
在一个计算系统中,与计算相匹配必然还需要存储、网络等架构。无论是CPU、GPU,还是其它专用芯片,在计算过程中均将不可避免的被存储、通信等进程打断,需要行业参与者拿出对应解决方案。
在ChatGPT热潮下,一种小众存储芯片的名气正随着AI计算需求剧增而为外界所知,据《韩国经济日报》报道,受惠于ChatGPT,随着市场对GPU需求剧增,三星、SK海力士的HBM芯片赢得了额外的订单,成为目前存储芯片下行市场中,意外爆红的芯片类型。
HBM(High Bandwidth Memory,高带宽存储器)芯片是一种可以实现高带宽的内存芯片,与普通DRAM内存相比,HBM可以提供更高的数据的传输速度,基于该特性,HBM主要应用于高性能计算场景中,如超级计算机、AI加速器、高性能服务器领域。
HBM在与CPU及GPU协同工作中,可以提高机器学习和计算性能。目前ChatGPT的火热发展已令英伟达等GPU厂商受益ChatGPT使用了1万多个英伟达的A100 GPU学习了庞大的文档数据。而HBM可以安装在加速卡中,英伟达A100就最高配备80GB HBM2内存。
“HBM一直很难卖,因为价格是DRAM的3倍,但AI是HBM的杀手级应用。”TriOrient Investments副总裁Dan Nystedt称。由于成本高昂,HBM一直难以大规模普及,市场推广较慢,但预计AI应用将为其进一步打开市场规模。
目前,由ChatGpt带动的HBM需求已经引起了上游厂商的关注。SK海力士提及,目前已开发除第四代HBM产品,并于去年向英伟达供货。三星半导体对界面新闻表示,基于人工智能技术的交互式AI的学习和推理需要高性能处理器和支持其高性能存储器组合,这将积极地影响对存储器的需求。
三星HBM-PIM
针对AI应用,三星半导体介绍,已经在存储芯片上结合人工智能处理器的HBM-PIM(Procee in Memory,存内计算)技术上取得了成果,并计划与客户共同构建PIM平台生态系统。
根据市场调研机构Omdia在2021年预测,到2025年,HBM市场的总收入将达到25亿美元,目前来看,这一数字随着AI计算需求增长有望打破。
长期来看,HBM配合CXL等新型数据传输协议也将在增强AI计算性能,并获得行业巨头支持。半导体咨询机构集邦咨询认为,CXL将随着未来CPU内置CXL功能而普及化,在未来AI服务器中,可以见到更多使用HBM和CXL的联合设计方案。
分布式计算呼唤DPU
ChatGPT参数量数以亿计,无法在单台机器上进行有效的训练或推理,因此需要使用分布式计算。在分布式计算中,机器之间的带宽和高效的计算芯片变得至关重要,因为数据互连往往是瓶颈。在数据中心层面,业界期待被视为数据中心“第三颗芯片“的DPU解决此类问题。
“ChatGPT这类语言类生成模型的参数量高达千亿,几乎不可能使用单机训练和推理,而必须大量使用分布式计算。”DPU开发商云脉芯联相关负责人告诉界面新闻,在进行分布式计算时,就需要DPU做一些数据的处理和预处理,由DPU将任务分发给CPU、GPU和FPGA等进行计算。
DPU即数据处理器(Data Processing Unit),用于处理海量数据,在云数据中心中,数据在多个服务器之间来回流动。云厂商通过将网卡改造为DPU,减轻CPU负担,使其专注于更关键的任务,类似于公司前台可以缓解员工的工作量。
业内还预计,除了GPU、HBM、DPU以外,由小芯粒技术Chiplet加持的芯片异构技术,也有望支持算力增长,Chiplet通过把不同芯片的能力模块化,利用新的设计、互联、封装等技术,在一个封装的产品中使用来自不同技术、不同制程甚至不同工厂的芯片。从半导体产业链端来看,包括IP授权、晶圆代工、封测等厂商为之提供关键的技术支持,可视为提升AI算力重要的基础设施。包括Imagination、Arm、台积电、日月光等上下游厂商,将从中获得增长。