“数据中心正在转变成‘AI工厂’,它们处理大量数据,以实现智能。”3月22日晚,NVIDIA创始人兼CEO黄仁勋在2022 NVIDIA GTC大会上表示。
在GTC大会的主题演讲中,黄仁勋多次提到“AI工厂”(AI factory)这个词,“AI数据中心处理海量且连续的数据以训练和完善AI模型,原始数据进来,经过提炼,然后智能输出企业正在制造智能并运营大型AI工厂。”
从曾经介绍Omniverse时说的“数字虫洞”,到现在描述“新数据中心”的“AI工厂”, 黄仁勋似乎一直长于用隐喻集合自己的思考。
所以,什么是“AI工厂”?
在3月23日的媒体交流会上,记者提问演讲中提到的“AI工厂”是否真的存在时,黄仁勋表示,“事实上,它们是隐藏的,同时也是显而易见的。它们就在你的眼前,只是你没有意识到它。”
似乎非常玄学,但听了黄仁勋接下来的解释好像也就可以理解为什么这么说。
黄仁勋首先提出,让我们定义一下什么是工厂。在他看来,工厂是一个‘大盒子’,输入进去原材料,使用一些能量,于是将原材料转化成一些有价值的商品输出,“食品用这种方式加工,汽车是这样制造的,芯片也是这样制造的”。
“就世界上最大的互联网公司而言,无论他是谁,他都是数据进来,通电,然后出来智能一个可以识别语言的模型抑或一个可以预测和向用户推荐其可能喜欢的内容的模型。”黄仁勋表示。
进一步而言,黄仁勋认为在未来,它可能是一个了解你,能帮你推荐药物、读物、治疗方案等的模型,这个必须在输入数据和输出模型之间反复训练。“所以你已经可以看到很多这样的AI工厂,它们非常显而易见。在未来,每家公司都会有AI工厂,因为每家公司从根本上说所做的都是智能。对于世界上大多数地区来说,这是一种新型的数据中心。它已经无处不在,但这只是开始。”
理解这一点,似乎就能理解NVIDIA的很多动作,比如在最新发布的H100 GPU中首次配备Transformer引擎,比如瞄准图形处理和人工智能两大赛道。市场也给这个判断带来了实际的成绩英伟达的市值为6631亿,高出全球半导体市值第二名台积电1080亿(截至发稿,台积电市值为5551亿)。
“只有自己才能战胜自己”:性能怪兽H100 CPU
Transformer是现在自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 GPU配备的Transformer引擎可以让这类模型在训练时保持精度不变、性能提升6倍,这意味着将原本需要几周的训练时间缩短至几天。
具体而言,无论是GPT-3(1750亿参数),还是“对于大型Transformer模型训练,H100将提供高达9倍的性能,过去需要数周时间才能完成的训练可以减少到几天内,”NVIDIA产品管理高级总监Paresh Kharya在发布会上表示。
对于为何钟情Transformer,黄仁勋解释道,Transformers使自我监督学习成为可能,并无需人类标记数据,AI领域出现了“惊人的进展”。因此,Transformer正在越来越多的领域中发挥作用。比如用于语言理解的Google BERT,用于药物发现的NVIDIA MegaMolBART以及DeepMind的AlphaFold2都要追溯到Transformer的突破。”
除此之外,H100推理性能也大幅提升。英伟达推出的Megatron-Turing模型(5300亿参数)在H100上推理时的吞吐量比上一代A100高出30倍,响应延迟降低到1秒。在FP16、FP32和FP64张量运算方面,H100比上一代A100快三倍,在8位浮点数学运算方面快六倍。
NVIDIA H100战胜NVIDIA A100,接棒全球最大AI加速芯片(H100集成了800亿个晶体管,比上一代A100多了260亿个;CUDA核心飙升至16896个,为A100的近2.5倍),这可能就是传说中的“只有自己才能战胜自己”。
无独有偶,“自己战胜自己” 的还有Hopper架构。NVIDIA宣布Hopper新一代加速计算平台将取代两年前推出的Ampere架构,Ampere是NVIDIA迄今为止最成功的GPU架构。
H100就是NVIDIA首款基于Hopper架构的GPU。据黄仁勋介绍,H100采用台积电最新的4nm工艺,而非之前流传很久的5nm。同时,H100配备第四代NVLink高速GPU互连技术,最多可连接256个H100 GPU,带宽速度扩展至900GB/s。
同时,H100数学计算能力也提升了,Hopper引入了名为DPX的新指令集,可以加速动态规划,在运算路径优化和基因组学等动态规划算法优化问题,与CPU和上一代GPU相比,其速度提升分别达40倍和7倍。
“20张H100即可承载全球互联网流量”,黄仁勋在GTC大会上表示,“Hopper H100是有史以来最大的一次性能飞跃其大规模训练性能是A100的9倍大型语言模型推理吞吐量是A100的30倍”。据介绍,H100将会在今年第三季度开始供货。
目前,H100有两个版本可选:一个是热功耗达前所未有的700W(专业领域自媒体称英伟达“核弹工厂”)的SXM,用于高性能服务器;另一个是适用于更主流的服务器PCIe,功耗比上一代A100的300W多了50W。
基于H100推出的最新DGX H100计算系统,是常见的配备8块GPU。但DGX H100系统在FP8精度下达到32 Petaflop的AI性能,比上一代DGX A100系统高了6倍,900GB/s的GPU连接速度接近上一代的1.5倍。
在GTC大会上,黄仁勋还介绍了在DGX H100基础上搭建的Eos超级计算机,又创造了AI超算性能世界第一(其18.4 Exaflops的AI计算性能比日本“富岳”(Fugaku)超级计算机快了4倍)。Eos配备了576个DGX H100系统,用了4608块H100。在传统科学计算,算力能达275Petaflops ,第一名富岳是442 Petaflops。
H100的新一代Hopper架构以“计算机软件工程第一夫人”Grace Hopper命名。Grace Hopper是计算机科学的先驱之一,发明了世界上第一个编译器A-0 系统。1945年,Grace Hopper在 Mark Ⅱ中发现了一只导致机器故障的飞蛾,从此“bug” 和 “debug” (除虫) 便成为计算机领域的专用词汇。
有“Hopper”也有“Grace”,在GTC大会上,黄仁勋也介绍了超级服务器芯片Grace的最新进展:Grace Hopper超级芯片和Grace CPU超级芯片,前者由由一个Grace CPU和一个Hopper架构的GPU组成;后者由两个Grace CPU组成,通过NVIDIA NVLink-C2C技术互连,包括144个Arm核心,内存带宽高达1TB/s,能耗500w。
黄仁勋现场也秀出一个数据Grace超级芯片在SPECrate2017_int_base基准测试中模拟性能达到740分,是当前DGX A100搭载的CPU的1.5倍(460分)。
“性能怪兽”用来干点什么?黄仁勋:造世界/元宇宙
NVIDIA近几年持续在建设的Omniverse现在看起来已经像是个“元宇宙基建”工具,数字孪生也可以理解为在虚拟空间重现物理世界,简称“造世界”。
但这不是一个娱乐项目,黄仁勋为Omniverse描述的未来图景是成为“以行动为导向的AI”的组成成分。什么意思呢,黄仁勋以NASA举例,“半个世纪前,阿波罗13号登月任务遇到了麻烦。为了拯救船员,NASA的工程师们在地球上创建了一个船员舱模型来帮助解决宇航员在太空遇到的问题。
亚马逊用Omniverse Enterprise建立虚拟“订单履行中心”寻找最高效方式,百事可乐用Metropolis和Omniverse建立数字孪生工厂模拟运行以低成本排查问题,以及利用仿真数据让AI智能体在虚拟但符合现实世界物理规律的环境中“练车”等等都是同样的逻辑。
Omniverse中建立数字孪生工厂
Omniverse中练功夫
“AI正在各个领域‘全面开花’,包括新的架构、新的学习策略、规模更大、性能更强的模型、新的科学领域、新的应用、新的行业等,而且所有这些领域都在发展”,黄仁勋表示,“NVIDIA全力投入于加速AI领域的新突破以及AI和机器学习在每个行业的应用。
这个判断也基于黄仁勋对影响行业发展的五个趋势的看法:million-X百万倍计算速度飞跃,大幅加快AI速度的Tranformers,成为AI工厂的数据中心,对机器人系统的需求呈指数级增长,以及下一个AI时代的数字孪生。
“我们将在未来十年以数据中心规模加速整个堆栈,再次实现million-X百万倍性能飞跃。”,黄仁勋在演讲末尾说道,“我已经迫不及待地想看到下一次百万倍性能飞跃将带来什么。”