孙凝晖院士:集成芯片引领高性能计算革命

人物报道1年前 (2023)发布 aixure
70 0 0
导读:作者 | 明明如月 责编 | 夏萌 出品 | CSDN(ID:CSDNnews) 2023 年 8 月24 日到 8 月26 日,由中国计算机学会主办,中国计算机学会高性能计算专业委员会、中国海洋大学、青岛海洋科技中心、齐鲁工业大学(山东省科学院)共同承办,青岛高新技术产业开发区管…

作者 | 明明如月 责编 | 夏萌

出品 | CSDN(ID:CSDNnews)

2023 年 8 月24 日到 8 月26 日,由中国计算机学会主办,中国计算机学会高性能计算专业委员会、中国海洋大学、青岛海洋科技中心、齐鲁工业大学(山东省科学院)共同承办,青岛高新技术产业开发区管理委员会、青岛国实科技集团有限公司、山东省计算中心(国家超级计算济南中心)、中北大学、北京并行科技股份有限公司共同协办的 “算力互联智领未来” 2023 年 CCF 全国高性能计算学术年会(CCF HPC China 2023)在青岛的中国红岛国际会议展览中心举办。

与会期间,9 位中外院士齐聚,11 场特邀报告、6 场产业报告、46 场主题论坛、30 余场特色活动、4 场“2023 中国超算最佳应用”入围作品展示等精彩纷呈。

其中,中国科学院学术委员会副主任、中国科学院计算技术研究所学术委员会主任、中国科学院大学计算机科学与技术学院院长、中国工程院孙凝晖院士通过《集成芯片与高性能计算》报告,详细介绍了集成芯片的概念、意义及面临的科学问题,以及集成芯片如何推动高性能计算的发展,实现从亿级到 Z 级的计算能力提升。

院士简介:

中国科学院学术委员会副主任、中国科学院计算技术研究所学术委员会主任、中国科学院大学计算机科学与技术学院院长、中国工程院孙凝晖院士

精彩观点抢先看:

集成芯片通过二次集成提高晶体管的总量来降低大规模复杂系统芯片设计和制造的成本;

集成芯片可能会带来芯片设计范式的变革,从自下而上的堆叠法转变为自上而下的构造法;

集成芯片面临的科学问题包括:芯粒的数学描述和组合优化理论、大规模芯粒带来新的并行架构和设计自动化方法、以及多物理场的耦合问题;

通过集成芯片,可以扩大纵核的规模到万级,从而让集成度进一步提高一个数量级,最终达到 Z 量级的计算能力。只有掌握了标准,我们才能建立起完善的生态系统。有了这样的生态系统,我们才能够持续推进芯片的成本和技术发展。

报告详情:

芯片是提升算机系统性能的主要动力源

芯片作为一项核心的器件,无疑是提升计算机系统性能的主要动力源。在构建高性能计算机的过程中,我们基本上依赖于两个关键因素:一是硬件器件,特别是以芯片为核心的部分;二是其可扩展的体系结构。在过去几年里,我们已经在体系结构方面取得了显著的进展。然而,目前越来越明确的是,芯片性能正逐渐成为进一步提升计算机性能的决定性要素。为了具体说明这一点,我在此列举了几台曾经名列全球 TOP 500 的计算机,这些计算机显然证明了芯片工艺和集成度在提升系统性能方面的重要作用。例如,当芯片工艺从 14 纳米提升到 7 纳米时,其性能得以明显提升。同样地,若将集成度从 80 个晶体管提升至接近 400 个晶体管,性能则能得到进一步的提升。

接下来,我想特别介绍一款近期备受瞩目的芯片,即 Nvidia 的 GH200。这款芯片具有众多优势。从系统层面来看,它主要采用了超算领域内已经成熟的技术。其芯片能力有着显著的提升,具有 72 个 AM,再加上其 GPU 核心。通过使用 Nvidia 自家研制的高性能 NVLink 进行互联,该芯片的计算能力达到了惊人的 4 PetaFLOPs,即 4000 万亿次的计算能力,这是远远超过以往的一个水平。

为了更好地理解芯片与计算机性能之间的关系,我们不妨回顾一下历史

最初,计算机是基于电子管构建的。电子管寿命较短,因此只能支撑有限数量的加法器,这限制了第一台通用计算机的性能。电子管的开关性能也相对较低,因此,其浮点运算性能大约仅为几百到上千 FLOPs。

然后,随着晶体管的出现,这种局面得到了显著改善。晶体管具有更长的使用寿命,使得在更小的电路板上可以集成更多的晶体管。正是由于这种硬件的进步,计算机开始逐渐从实验室走向商业应用。

进一步来说,集成电路技术的出现进一步推动了这一进程。由于大量的晶体管能在单一芯片中集成,IBM 的 System 360 就这样应运而生。这是人类历史上第一款算力能够达到百万量级的计算机系列。更为重要的是,集成电路技术使得计算机能够按照“家族”或“系列”进行生产,这样,产业规模得以扩大。

我们正处于大规模集成电路的时代,这一时代已经延续了大约 35 年,也标志着摩尔定律的开始。从此时代开始,计算机性能的提升一方面依赖于芯片和集成电路工艺的进步,另一方面则依赖于体系结构的改善。在这一背景下,我们的计算设备不仅覆盖了高端的计算机和服务器,而且也渗透到了个人电脑中。如今,我们进入了系统级芯片(SoC)的时代,即在一个更大的芯片内集成了更多的功能模块。

随着三维集成电路技术的应用,我们对生产设备的依赖进一步加深,如现在必须依赖 EUV 光刻机来实现三维集成电路的微型化。与此同时,片内的微体系结构也得到了进一步的并行化,单个芯片上的核心数量已经从过去的一个增加到现在的几百个,甚至达到了上千个。这种技术进步不仅促进了高性能计算,还催生了智能手机和移动互联网时代。

未来一代的基础构建技术将如何演变?

接下来,值得我们深入探讨的是,从现在开始,未来一代的基础构建技术将如何演变?芯片将呈现何种形态?除了继续推动高性能计算机的发展,是否还将出现一个更加多样化的计算系统生态?

进一步地,我想引入“集成芯片”的概念。在英文翻译方面,CCF 的集成电路专业委员会将其翻译为“Integrated Chips ”,但这个词是否准确,还有待讨论。

通常来说,提高芯片性能主要有以下几个途径

首先,便是大家耳熟能详的摩尔定律,即通过缩小晶体管的特征尺寸,使得在同等面积的芯片上可以集成更多的晶体管。这样一来,就能借助体系结构的优化手段来进一步提高性能。据国际集成电路协会的预测,这一途径至少可以持续到 2035 年,到达 0.1 纳米。虽然业界一直在预言摩尔定律即将终结,但事实上,其依然在发展,尽管提高性能的速度已经在减缓。当然,我们也必须面对 EUV 光刻技术的长期难题,这对实现 7 纳米以下的先进工艺来说是一大挑战。

其次,从长远角度看,提高性能的另一个方式是增加更多的核心。然而,这一做法受到 EUV 光照面积的制约。当前,EUV 的最大光照面积限制在 858 平方毫米。由于这一制约,同等面积下不同工艺节点的性能差异将达到一个数量级。这实际上是一个无法逾越的瓶颈。再者,为了提高性能,我们需要在芯片内部增加集成度。只有当集成度得到提升,微体系结构的优化手段才能得以实施。除了上述的最大面积问题,还有一个关键因素需要考虑,那就是良率。在先进工艺阶段,良率逐渐下降,从而导致投资和收益比也在下降。比如,要实现 400 核的芯片,其良率已经降到了 60% 以下,这无疑会导致成本翻倍,从而阻碍了产业的规模化。

最后,为了提高性能,我们还需要考虑采用新的原理器件。一些前沿研究正在考虑使用非硅材料,如碳或新的二维材料,以及超导晶体管等。然而,这些新型器件大多数还处于研究阶段,主要用于支持特定应用,而难以替代当前的通用器件。

我们认为集成芯片很可能成为提高芯片性能的第三种途径。传统芯片在二维平面上制造,而现在晶体管已经能够实现三维布局。整个集成电路的工艺仍然基于平面工艺,也就是在一个平面上集成更多的晶体管。因此,集成芯片的概念将集成过程分为两个阶段。第一次集成在二维平面上进行,而第二次则利用不需要最先进制造工艺的二维、2.5 维或三维集成,通过二次集成提高晶体管的总数量,从而降低大规模复杂系统芯片设计和制造的成本。

这个概念大约在 2010 年左右被提出,当时台积电的蒋尚义使用了先进封装的概念。他将两个芯片通过封装的方式放在一起。封测行业和集成电路制造行业是两个不同的行业,一个企业要么从事制造行业,要么从事封测行业。而台积电是一家制造行业的企业,因此他提出了封装的概念。2015 年,美国 Marvell 公司提出了模块化芯片的概念,引入了芯粒这个术语。2019 年,台积电正式将集成芯片作为其产品规划的主要组成部分。在我国,2021 年,在基金委的引导下,这个概念被凝练为"集成芯片",作为一个新的研究领域,在双新论坛上成为基金委今年发布的重大研究计划。

如今,市场上也出现了许多基于集成芯片概念开发的产品。其中较多的是在第三个阶段,即利用先进封装或者新技术将现有芯片进行耦合。我们认为,如果集成芯片能够成为一个可信赖的产业界支持大规模应用的技术,其内涵将比集成更加丰富。这里只举了处理器的例子,实际上集成芯片的内涵应该包括分解、组合和集成三个部分,而每个部分都面临着自身的科学问题和技术挑战。我将在后面更详细地阐述这些内容。

美国的学术界也比较早地开始发展这一技术。DARPA 在 2017 年和 2018 年连续布置了两个重大研究计划,分别是 CHPIS 和 3DSoC。CHPIS 主要研制可复制、可复用的阈值件,而 3DSoC 则利用三维集成技术推动前瞻性研究。

产业界也几乎同时起步。最早的集成芯片产品是 Xilinx 的 FPGA,蒋尚义在进行先进封装时利用台积电的工艺,制造了 4 颗 FBGI 芯片,并通过先进封装将它们封装在一起,形成一颗更大的芯片。现在,许多企业都基于这项新技术开发了相当多的产品,包括华为、英伟达等。对于超算领域以及最著名的就是英特尔为 HPC 研制的特定GPU。该芯片于 2021 年推出,拥有 47 亿个超大规模的晶体管,应该是世界上集成度最高的芯片。它采用了三维堆叠的集成方式,被用于构建 200 亿次超级计算机 Aurora 。因此,我们可以看到器件技术正在朝着集成芯片的方向发展。

目前,产业界大致采用三种方法。首先,最直观的是同构连接,这种方法相对简单,但扩展性较差。一般而言,市面上最多能实现 4 个芯粒的集成,这是传统 SOC 设计的芯粒化方式。第二种方法是以特斯拉的 DOJO 芯片为主,它的规模可以扩展得比较大,但跳步数较多,因此在规模较大的情况下,会增加延迟。目前还有一种方法是以 AMD 为主,将 IO 放在中心,围绕存储芯粒设计。一般而言,采用这种架构可以实现 8-16 个芯粒的可扩展性。这三种方法是目前主要的思路,它们与过去在一个芯片中集成多个 HPC 的思路相似。

对于我国而言,发展集成芯片变得更加迫切。而对于欧美来说,他们牢牢掌握着尺寸萎缩技术的主导权,他们会先利用已有成熟技术进行开发,直到将其发展到新的前沿技术。由于我国存在制造方面的瓶颈,我们迫切想知道,是否可以通过使用 7 纳米工艺和 2.5 封装来实现与 5 纳米相当的性能。我们还想知道,使用 3D 封装的 14 纳米工艺是否可以等效于一个 5 纳米的芯片。这对我们来说是一件非常迫切的问题。

此外,在智能时代,芯片的种类将大幅增加。我们过去的 CPU 设计企业数量仅有十家就属不错,而现在已经增加到几十家。许多互联网企业和行业公司都在自行开发处理芯片,因此对定制芯片的需求非常大。如果我们仍然采用传统的芯片设计流程、设计工具和制造工艺,将会面临设计成本高、产品研发周期长以及市场投入成本高的问题。这无法满足新企业的设计需求,为新的技术路线带来市场推动力。

因此,这个技术所带来的变革不仅仅在于提升芯片速度,我们认为更可能引发芯片设计范式的变革。这是一种科研范式的变革。过去,我们在芯片设计中采用自下而上的方法,从晶体管到功能,一直自下而上。无论是 CPU 还是GPU,其设计流程和工具都是自下而上的。而现在,这给了我们一个机会,将自上而下和自下而上的工具链有效结合起来。对我国来说,这可能更为重要。我国的电动汽车发展迅猛,但我们基本上依赖国外的高端芯片。这些芯片需要经过审批。因此,我国有一些企业,包括电动车企业,也希望能够研制自己的芯片。

下面给出了一个可能的方案,该方案显然比使用 5 纳米方案更为复杂。首先,工艺变得复杂,集成方法也变得复杂。在一个芯片中,除了有源器件外,还有无源器件。除了硅基集成,还有硅基板的集成。然而,这是一种可以替代目前成熟方法的新途径。

今年,基金委设立了一个重大研究计划,每年只有两三个。为什么在芯片领域,一个看起来非常工程化的产业,产业现在都大量投入,何以成为基金委的重大研究计划呢?我们认为,成熟产业的发展需要相应的成熟技术支持,不仅仅面临一台机器,我们需要通过工程方法找到可行的解决方案。因此,要将其发展为成熟产业,需要解决许多科学问题和技术挑战

我刚才已经提到过的一个问题是设计范式。过去的方法是堆叠法,我们的设计工具和制造对象也是如此。因此,在堆叠法的设计方法下,先进工艺的制造商主导着整个产业,过去是 IBM,后来是英特尔。它们的工艺先进,主导了 CPU 产业。现在,像 TMC 这样的公司拥有先进工艺,它们主导着集成电路产业。

但是,如果我们将这种设计范式改为构造法呢?将这个过程分解为分解、组合和集成三个步骤。分解是什么意思?如何以最优的方式设计芯粒的种类,即以最少的种类涵盖最广泛、最通用的功能范围,这就涉及到最优功能分解的问题。其中包含许多数学问题,如连接度和物理上的多尺度耦合的变化。同时,在完成特定功能的芯粒组合时,我们过去设计多核芯片时都采用同构设计,但在智能时代,许多芯片是异构的,因此需要进行高效的组合。最后还有一个集成问题,这涉及到物理层面的问题,这样我们就可以将自下而上的构造转变为自上而下的构造方法。

其中一个科学问题是芯粒的数学描述和组合优化理论。我们知道,在设计芯片时,我们的数学基础是布尔代数和符号逻辑,因此我们现在的 EDA 工具可以进行预先规划和计算。但是,如何用数学公式描述一个芯粒呢?这就需要新的数学工具,我们认为可能的方法是使用函数论来描述芯粒,而组合优化方法可以成为一种新的设计范式的数学工具。其中涉及一些研究问题,我就不再详述了。

第二个问题涉及大规模芯粒的并行架构和设计自动化方法。目前我们考虑了核间的并行,进一步上升至系统间的并行,而系统和核之间则引入了多芯粒的并行。这其中存在一个组合问题,我们的设计已经考虑了 PPI 结构,并且EDA 的设计空间探索变得非常复杂。现在,我们又增加了一个维度。我们知道,每增加一个维度,设计空间探索的复杂性就会提高好几个数量级。在这种情况下,如果我们想要使用自动化工具进行设计,不仅需要提升布线的能力,还需要一些工具来辅助整个电源的设计。我在下面列出了一些涉及设计工具的新难点。

第三个问题是由于芯粒的制造采用的是制造工艺而不是封装工艺,因此会出现许多耦合问题。在过去的芯片制造中,由于芯片需要散热,我们可以使用微观的波尔曼方程以及宏观的扩散理论进行模拟。然而,随着新的芯粒的出现,它们具有热、电、磁甚至机械等多种混合结构,体积较大。因此,热和力的耦合会引发非均匀性和不平整性等问题,从而使得多物理场的计算比以前复杂得多。这将带来全新的科学问题,包括信号完整性和功耗等方面的挑战。

此外,我们提出了十个技术挑战,其中包括从抽象到体系结构的转化,以及如何进行万亿晶体管的仿真、信号完整性和容错等问题。这些都是目前尚未解决的科学技术挑战。为此,我们今年发布了重大研究报告的第一批指南,并希望能够得到更多学术界同仁的共同努力,攻克这些技术难题。

实践探索

最后,介绍一下我们计算所在这个领域的探索。我提到未来的计算能力提升可能更多依靠两极集成。目前我们在一级计算,即亿-Z 级别,很可能芯粒集成是达到 Z 级的技术路线。我举了 FRONTIER 项目作为例子,如果我们继续按照这个技术路线发展,假设集成电路工艺可以进一步改进,根据最大光照的限制,按照这个路线,其算力天花板大约在 10 亿 FlOPs,而我们现在大约在 2-3 亿 FlOPs,所以我们还可以进一步发展一代,利用现有技术路线可以实现。但是,再往后走就会受到这个限制。

使用集成芯片对高性能计算带来了一些好处。首先,我们提到了 IO 带宽的限制,刚才也强调了数据的重要性。很直观地,通过多芯粒集成,IO 的广角相比过去增加了一个数量级。当然,IO 的广角数增加了,带宽也提高了,这是相对容易理解的。目前,我们已经使用集成芯片实现了一些高带宽,可以达到 TB 级,进一步提高 10 倍

其次是降低通信延迟。现在核心数量增加后,核心之间需要保持一致性。目前基本上采用大规模并行,甚至几百个核心使用 cc-numa 方式,其延迟大约为 100 纳秒。如果我们使用硅基板进行集成,我们可以将这个延迟降低到纳秒级别,这样我们就可以在 cc-numa 框架下实现更大规模的计算。目前,我们大约可以实现千核左右的集成度,进一步将其提高到万核。

还有一个好处是更容易引入光互联。因为现在光子集成和电子集成可以在同一个芯片上实现,尽管这仍然存在一定难度,但我们已经有了一些可以实现的技术。在集成芯片的制造工艺下,我们可以将光子芯片和电子芯片进行集成。举个例子,我们可以在芯片的四边都放置光子芯片,这样就可以实现从集成芯片出光的角度。我们一直希望将光引入芯片内部,但一直无法实现,光线都是放在外面。这给全光互联带来了一个可能性。

第三个方面是通过一极硅基板和一极有机基板,将纵向核的规模扩大到万级。目前我们的实验使用了 2.5D 集成的4 英寸硅基板,在当前技术条件下,我们可以实现 3000 个核的集成,离万核还有一定的距离,但这是可以逐步发展的,这将进一步提高我们的集成度一个数量级。

正如刚才所提到的,10 亿是一个天花板,我们希望通过集成的方式实现从 10 亿到 Z 级的演进。第一级是将芯粒做到百核,硅基板做到万核,硅基板再扩展到百万核,然后迈向第四级,将其扩展到整个系统,最终实现Z级规模。

我们也进行了一些前沿研究,以探索这种芯片能够实现多少核的规模。我们首先进行了一个小规模的实验,使用了163 个芯粒进行 256 核的设计。虽然规模较小,只有 4000 万,但它证明了当核数达到 256 时会出现哪些新问题。例如,互联结构需要提高 10 倍的密度和复用性能。此外,温度控制也是一个挑战,由于规模较大,散热面积不均匀,因此需要在芯片内部引入冷却液,并进行微流道的精细控制。这也是实现大规模芯片所需的新技术。我们计划进一步将这些核替换为香山高处理器的核,将其规模再提高一个数量级,并在这个结构中进行多极一致性划分的验证,以确定这种结构是否适用于万核规模。

展望未来,我们希望能够实现 256 核或 400 核的大芯粒级别,达到万核的大规模芯片。这样的芯片不仅可以媲美当前大型机柜的计算能力,还可以成为通用的产业级使能芯片,为现代智能计算机领域提供基础支持。

此外,一个产业的成熟还需要制定标准,这需要更多企业的共同支持来推动该行业的发展。因此,我们认为接口在其中起着非常重要的作用。为此,联合国内大约 12 家单位共同制定了芯粒互联的标准,这一标准目前已成为国家电子化协会的团体标准。该标准涵盖了计算到存储、存储到 IO 以及光学芯粒等四种场景,包括了 MCM、CoRos、CoWoS 和 Silicon Bridge 这四种封装方式以及三种协议接口。此外,它还兼容了英特尔的 CXL 等协议。对此感兴趣的人可以进一步了解。我们希望通过 Chiplet 这个组织,能够将这一标准进一步推广至国际范围。

目前,我们面临的主要竞争来自英特尔推出的 USIE 标准。它涵盖了物理层标准和 CX 协议,因此在标准层面的竞争也非常激烈。只有掌握了标准,我们才能建立起完善的生态系统。有了这样的生态系统,我们才能够持续推进芯片的成本和技术发展。这将使高性能计算机不仅能够构建出最快的机器,也将促进产业的持续发展。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...