中国工程院院士郑纬民：建好AI生态，大模型产业才能更好发展

人物报道1年前 (2023)发布 aixure

71 0 0

导读：11月4日，第二届开放原子开源基金会 OpenHarmony技术大会在京召开。中国工程院院士、清华大学计算机系教授郑纬民在会上表示，要大力开展基于国产AI芯片大模型基础设施研究，完善国内AI生态系统建设，做好整体系统工程化，关注软硬件协同设计，解决大模型基础…

11月4日，第二届开放原子开源基金会 OpenHarmony技术大会在京召开。中国工程院院士、清华大学计算机系教授郑纬民在会上表示，要大力开展基于国产AI芯片大模型基础设施研究，完善国内AI生态系统建设，做好整体系统工程化，关注软硬件协同设计，解决大模型基础设施建设的关键问题。

郑纬民坦言，国内AI生态尚未建设完善，“国产AI芯片只要达到国外芯片60%的性能，如果生态做好了，客户也会满意。大多数任务不会因为国产芯片性能只有（国外芯片性能的）60%而有明显感知，大家感觉到的不好用还是生态不行。即使硬件做的很好，甚至比国外做的更好，但如果生态没有做好，依然不被喜欢”。

软件主要提供的是灵活性和效率提升，硬件算力提供了最基本的资源基矗要建好生态，首先要做好整体系统工程化、软硬件协同设计。当前，新型硬件的使用对软件系统设计提出了巨大挑战。比如，随着应用程序对算力需求的日益提升和摩尔定律的逐渐放缓，新型计算硬件，特别是异构加速处理器，成为了高性能计算发展的主流；为了打破存储墙对应用程序计算性能的桎梏，新型存储器件，如固态存储设备SSD等，也被广泛应用于高性能计算机。

与此同时，人工智能、图计算、大数据等的广泛应用让软件也变得更为复杂。如何在新型硬件系统上设计与优化新型应用程序，新的硬件、新的软件如何做优化设计、做适配，成为一个亟待解决的关键问题。

人工智能计算具有计算密度高、需要大量低精度计算的特点。郑纬民指出，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求，包括数据并行、模型并行、专家并行在内的并行训练已成为大模型训练的“标配”。

比如在国产的新一代神威高性能计算机中，包含了96000个节点、37440000个核心以及互连网络。神威采用的是新一代体系结构芯片神威26010pro，以及支持MPI通信的国产自主高速网络。神威超级计算机契合了大规模预训练模型的需求。据悉，郑纬民院士团队在国产E级高性能计算机上训练了一个170万亿参数的超大规模预训练模型，模型参数可与人脑中的突触数量相媲美。

“在训练这一超大规模预训练模型中，需要考虑四个问题：一是半精度运算性能与双精度运算性能的平衡；二是网络平衡设计；三是内存平衡设计；四是核心子系统平衡设计。这四点做好了，别人要用1万块AI芯片训练大模型，我们只用9000块就可以了。”郑纬民感叹说道。

生态是一切产业发展的基矗完善的生态可以加速知识、技术、应用场景的积累，使创新成果更快地转化为产品，连接产业链上下游，也可以为人才的培养和流动提供良好平台。

郑纬民表示，在数字经济时代，摩尔定律的持续实现，为人工智能的进一步发展提供了关键的基础，需要通过软硬件密切协同，才能进一步加速算力提升和使用效率。算力、网络具备很强的公共基础设施特性，只有加快建立一个开放性的产业生态，把选择权交给用户，才能驱动行业百花齐放，从而真正促进大模型产业的健康发展。

# 人物报道