作者 |杨逍
采访 |周鑫雨 杨逍
编辑 |邓咏仪 苏建勋
英特尔正对人工智能市场发起猛烈进攻。
7月11日,英特尔召开芯片发布会,针对中国市场推出高端AI处理器Gaudi 2,一款支持加速AI训练和推理任务的芯片。
自大模型和生成式AI兴起后,尚未出现能与英伟达GPU一较高下的产品。今年6月,AMD推出了针对AI需求的Instinct MI300,但芯片发布后,AMD股价反而下跌。
Gaudi 2的推出意味着英特尔的新一轮进攻开始。发布会上,英特尔没有介绍Gaudi 2的具体参数,但从训练时间、性价比、可扩展性、易用性等多个角度,将Gaudi 2和英伟达的A100、H100一一作对比,只为凸显一个主题Gaudi 2可用,Gaudi 2具有性价比,Gaudi 2很强。
Gaudi 2出自以色列人工智能公司Habana Labs团队,该公司在2019年被英特尔收购,之后独立运营。
Habana Labs首席运营官Eitan Medina表示,在2023年6月的国际性AI芯片测试MLPerf上“Gaudi2是目前仅有的两个提交GPT-3模型训练结果的半导体解决方案之一,另一个是Nvidia H100。”
发布会上,英特尔还带来了浪潮基于Gaudi2的新一代AI服务器NF5698G7,并表示在未来,国内的新华三、超聚变等公司也会参与合作。
英特尔的产品性能具体如何,市场是否会买单,中国作为最大的人工智能芯片市场,对其接受度如何呢?
比H100有性价比,比A100性能强?
自AI大模型火热以来,英伟达一家独大。对于英特尔在人工智能领域的策略,市场期待已久。
2023年年初,英特尔中国区董事长王锐就在战略媒体沟通会上回应,英特尔高层正认真对待人工智能浪潮,并适时推出产品。
本次发布Gaudi 2芯片是由Habana团队制作的产品。事实上,该芯片曾于去年在海外发布,此次发布的是针对中国市场的定制版本。
Gaudi 2采用7nm制程,有24个张量处理器核心,集成了96GB的HBM高性能存储和48MB的SRAM静态随机存储器,是专门为训练大语言模型而生的产品。
Gaudi 2产品性能
针对不同精度的峰值数据,英特尔并未做过多介绍。Eitan Medina告诉36氪,英特尔并不希望专门比算力或者数字,而是将重心放在应用上,“我们的产品和整体解决方案能为客户提供很好的性能。”
在发布会上,Eitan Medina通过MLPerf基准测试结果来展现Gaudi 2的性能。MLPerf基准测试是一个专门针对AI芯片进行测评的国际测试,此前,壁仞科技就曾参与该测试,与英伟达一较高下。
MLPerf每年会进行两次测评,在距离最近的2023年6月测评中,Gaudi 2是除了Nvidia H100以外,唯一提供了GPT-3模型训练结果的半导体解决方案。
Gaudi2与H100对比
根据英特尔提供的信息,Gaudi2的性能低于H100,但高于A100。
Gaudi2在384个加速器上训练GPT-3需要311分钟,而英伟达用512个H100 GPU训练GPT-3的时间只需要64分钟,也就是说,H100的性能领先于Gaudi2芯片3.6倍。
在8个加速器情况下,Gaudi2跑计算机视觉模型ResNet-50和Unet3D的效果不错,和H100的差距会比运行GPT-3时小很多。
针对和H100的差距,英特尔认为,Gaudi2的优势在于性价比。Gaudi2服务器的成本要比H100低得多。
相较A100,Eitan Medina表示,根据MLPerf的报告,Gaudi2在每个模型上的训练效果都优于A100。且Gaudi2具有成本优势,它运行ResNet-50的每瓦性能约是英伟达A100的2倍,运行1760亿参数BLOOMZ模型的每瓦性能约达A100的1.6倍。
Gaudi2与A100性能对比
为了合规,Gaudi 2与国际版存在区别。但英特尔Habana Labs首席运营官Eltan Medina告诉36氪,相比于国际版Gaudi2,中国版Gaudi 2推出的加速卡在性能上差别不会很大,只是以太网端口数量从24个改为21个,整体计算性能未有下降。未来,Gaudi2及下一代5nm的Gaudi3都会在合法合规的情况下继续支持中国客户。
目前,英特尔内部有多款可用于人工智能市场的产品,如何看待不同产品的功能和市场?
英特尔公司执行副总裁 数据中心与人工智能事业部总经理Sandra Rivera认为,客户有不同的产品需求,中小型模型客户可以选择至强作推理,生成一张图片只需要5秒钟;而客户做千亿级新模型的训练需要更大算力,可以采用Gaudi芯片。
在发布会上,Sandra Rivera也对至强芯片做了介绍。在AI推理工作负载中,至强的推理性能与英伟达A100 GPU相比可超5倍,与AMD的64核EPYC CPU相比可超2倍。在执行训练工作时,至强CPU的性能较英伟达A100 GPU有近3倍的性能提升,可以在几秒钟或几分钟内完成训练,能降低客户成本。
发布会上,英特尔还展示了至强芯片对于Stable Diffusion模型的生成效果。Stable Diffusion模型能够文生图和图生图,结果显示基于至强芯片运转后,该模型在5.34秒生成了一张图像。
为更好抓住推理市场,英特尔正优化基于至强的推理平台,以便在云、网络或智能边缘部署多样化的AI应用程序。
英特尔Habana的GPU,客户会买单吗?
没有一家AI芯片公司,愿意错过大模型和生成式AI带来的巨大市常
从大模型热潮以来,国内的GPU公司纷纷加强在生成式AI相关能力上的投入和研发。然而,至今没有出现一款能和A100、H100对打的产品。
英特尔内部有GPU MAX产品,但英特尔选择将Habana的产品作为王牌推向市场,希望以此逐鹿人工智能市常
Habana可能更能给市场信心。2019年,英特尔以20亿美元高价收购了以色列AI芯片制造商Habana Labs,Habana作为独立业务部门运营,希望在数据中心AI领域挑战英伟达。
Habana同时有面向数据中心的AI训练芯片Gaudi(高迪)和AI推理芯片Goya(戈雅),以及完整的SynapseAI软件栈,且其第一代产品就体现出了能耗与时延的优势。
它的创始人Avigdo是一个技术大牛,曾成立了交换机芯片公司Galileo,后来卖给了Marvel;2011,Avigdor又成立了网络智能公司Annapurna Labs,2015年以3.7亿美元的价格被亚马逊收购。
这样的基因,让Habana的产品在性能上能有所保障。不过,Habana lab被收购后,需要融合进英特尔公司,在一段时间内后继表现相对乏力。
除了硬件产品,另一个构成英伟达壁垒的,是其Cuda软件生态。英特尔的产品如何应对Cuda生态?
Sandra Rivera认为,在数据中心的软件生态中,一个是X86的软件生态,一个是CUDA。在做人工智能或者是AI运算时,大部分的开发者不会做那么底层的开发,更多在PyTorch、TensorFlow上做创新。Gaudi2的软件生态本身支持PyTorch、TensorFlow这两个深度学习最常见的两个框架,同时支持Megatron和DeepSpeed这两个当今在大模型当中最主流的大模型训练框架。
为适配更多大模型,英特尔与专门做大模型的开源社区叫Hugging Face达成合作,可以在几十秒时间内调通现有模型。
浪潮信息AI&HPC产品线总经理刘军也在发布会上表示,“按照我们算法工程师实际使用的体验,使用Gaudi2和在GPU上使用基本上没有太大区别,客户可以非常丝滑地把自己的训练负载运行在Gaudi2的训练集群上。”
浪潮信息也在会上发布了支持8颗Gaudi2深度学习加速器进行高速互连的加速的基板,新一代AI服务器NF5698G7。
浪潮AI服务器NF5698G7
英特尔还透露,Gaudi2国内首批还将与百度智能云、紫光新华三、超聚变等公司合作。
中国有着庞大的AI计算市场,国内大模型公司是否愿意买单?
某AI模型层创企的CTO告诉36氪,目前存在顾虑。“在训练100亿参数规模模型10轮情况下,其他公司的芯片训练速度,普遍比A100多出10几天,宁愿多花钱买点A100或H100,也不想耽误训练的时间。而英特尔披露的信息主要宣传在ResNet模型上的性能提高,但ResNet和Transformer类模型存在较大区别。且Gaudi2在2022年已经发布,市场的选择已经说明问题。”
另一家大模型公司则表示,已与国内GPU产品达成合作,如果采用英特尔的产品,还需要重新测试,暂时无法确定是否会采购英特尔的产品。
在人工智能计算市场,英伟达独占鳌头,要么一卡难求,要么难以购买,无论是从产品供应角度,还是从能使用更优秀产品,缩减与国外大模型厂商的算力支持角度,市场期待第二款AI芯片。
英特尔、AMD跃跃欲试,国内的GPU公司也纷纷抓住训练市场,或通过大型集群的方式希望支持国内公司发展。
HabanaGaudi 2是否会成为下一个A100,仍需市场的回应。