AI芯片公司都宣传起“大模型” ｜直击WAIC2023

AI2年前 (2023)发布 aixure

72 0 0

导读：作者｜杨逍编辑｜苏建勋半导体公司参展世界人工智能大会（WAIC）已成惯例，然而今年，大多数观众奔向一家半导体公司展台后的第一件事，是寻找大模型三个字。大模型在国内爆火已半年有余，算力一直是让各公司们头疼的问题。大模型训练，需要高质量的数据…

作者｜杨逍

编辑｜苏建勋

半导体公司参展世界人工智能大会（WAIC）已成惯例，然而今年，大多数观众奔向一家半导体公司展台后的第一件事，是寻找“大模型”三个字。

大模型在国内爆火已半年有余，算力一直是让各公司们头疼的问题。大模型训练，需要高质量的数据和庞大的算力作支撑，由于种种原因，国内厂商想买到英伟达A100、H100芯片十分艰难；而较容易买到的A800芯片价格又相对高昂。

据36氪了解，国内有万卡储备规模的大模型公司不到10家，多为百度、字节、阿里、幻方量化这样的巨头。

可以说，算力正成为禁锢大模型公司的一大瓶颈。

国内半导体公司何时能撑起中国大模型的未来，成为行业关注的话题。

本次WAIC上，除后摩智能、知存科技等存算一体公司以外，几乎所有AI芯片公司都在展台上布设了“大模型”展页，介绍自家产品对大模型和AIGC应用的支撑能力。

从时间点看，一款芯片从研发立项到设计、流片到送测、量产，需要3～5年时间。此前，芯片厂商在做芯片设计上并未朝着大模型训练功能方面设计，目前展出的多为过往推出的产品。

在多数国内芯片厂商看来，行业模型类公司是他们更好的机会，能同时满足训练和推理一体化能力的芯片产品具有市场未来。

AI芯片公司拥抱 “大模型”

在WAIC大会展览馆内，大模型厂商占据半场，半导体公司占据另外半常走到世博H2展馆，昆仑芯、登临、瀚博、天数智芯、燧原、墨芯、沐曦等AI芯片厂商的展台，密集地簇拥在一起。

芯片制程和算力不再是AI芯片最被关注的话题，能否支撑大模型，可以做训练还是推理，适配了什么模型，速度如何，精度如何，功耗如何，显存采用什么芯片，达多大内存，一系列围绕大模型展开的问题成为参展嘉宾的关注重点。

具备支撑大模型训练能力还是推理能力，对芯片而言是一个分水岭。

推理是比训练更容易实现的事情。大模型的训练，是将百亿、千亿的数据喂给算法，最终训练出一个模型的过程，它对芯片计算速度和稳定性要求非常高；推理则是借助大模型，给他喂一个数据、问题后，生成答案的过程，需要的单个问题计算量大幅降低。

在展会上，昆仑芯、天数智芯、燧原等少数几家公司表示具有支持大模型训练的能力。

昆仑芯AI加速卡RG800的峰值为256 TOPS@ INT8和128 TFLOPS@FP16，展台相关产品介绍表示，“可用于常规模型训练，也可用于多业务并发的高性能推理”。

天数智芯的产品可以支持大模型训练、推理，据展台人员介绍：“我们在上半年搭建了搭建40P算力320张天垓100加速卡算力集群，完成了智源研究院70亿参数大模型训练。当前天数智芯正在搭建 200P 算力 1600 张卡的算力集群，支持 650 亿参数的大模型训练。”

燧原科技展示的第二代训练产品“云燧T20/T21”已经量产并落地在重点实验室和成都智算中心。据展台人员介绍，目前已可以支持多个大模型，并在现场演示了基于LLaMA的聊天机器人、文生PPT和多媒体生成的demo。

对于大模型训练而言，需要数据精度达FP16、FP32级别。根据各家官宣数据，天数智芯的智铠100、燧原邃思2.0、昆仑芯二代AI芯片、登临科技新一代Goldwasser最高能支持FP32级别的数据。

大多数AI公司主要介绍的是AI芯片对大模型的推理能力。沐曦、登临、算能、墨芯等都带来了自己的AI推理芯片及产品。

对芯片的判断指标主要有算力、功耗、精度、显存等维度。算力越高，计算速度越快；功耗越低，耗电和运营成本越低；可支持数据精度越高，能训练和识别的颗粒度就越高；显存容量越大，则能处理的数据量越大，能较好支撑大模型所需的大量数据计算过程。

算力维度上，墨芯采用稀疏化的技术路线，其S30能提供2832 TOPS(INT8)、1415.4 TFLOPS(BF16)的稀疏等效算力，功耗仅250W，不过相对而言，其产品在通用性上还有提升的空间。

沐曦曦思N100的单卡算力达160TOPS（INT8）和80TFLOPS（FP16），瀚博则首发了LLM大模型AI加速卡VA1L，具备200 TOPS INT8和72 TFLOPS FP16算力。

显卡角度，海飞科的Compass C10通用GPU和登临新一代Goldwasser（高凛）都拥有128GB的显存。海飞科官方资料表示，能支持单卡部署百亿级参数大模型进行推理。瀚博也表示，基于VA1L的大模型一体机整机拥有512GB显存，可以支持部署1750亿参数的大模型。

AI芯片硬件性能只是一个方面，想要让国产芯片能用起来，软件能力会是更重要的壁垒之一。算力的释放需要复杂的软硬件配合，才能将芯片的理论算力变为有效算力。

英伟达曾用3000多名工程师构建出一个强大的Cuda，它已成为英伟达强大的生态壁垒。这套框架里集成了很多调用GPU算力所需的代码，工程师可以直接使用这些代码，无须一一编写。

一位关注基础软件的投资人曾告诉36氪：“没有CUDA，调用GPU的代码会写到地老天荒，不可能所有的东西都自己写。”

国内公司在软件生态上有两个流派，如寒武纪、昆仑芯就选择自建软件生态，再造一个Cuda软件能力和工具栈；更多公司则选择和Cuda对接，如天数智芯、摩尔线程、燧原、登临等，让自己的产品与Cuda作兼容。

此外，国内AI芯片公司也都在加强适配能力，适配更多的大模型和开源模型。

多家公司向36氪表示，未来将推出能同时做训练和推理芯片的产品，产品分别预计于2023年第四季度到2024年间推出。

训推一体芯片是未来

大模型厂商正处于百模大战的阶段，有做L0级别技术大模型的大厂，做L1级别行业大模型的应用企业，还有部分微调的场景大模型。

目前，大部分国内AI行业公司认为，国产芯片最先的落地方向是行业模型。

一是因为，相较于大模型，行业模型更容易训练和落地，需求也更大。

部分垂直行业客户市场化部署时，希望基于最小算力成本来实现模型的落地。相较于从0开始训练大模型，“微调”对客户而言，是一个经济性更高的方法。

多位采访对象向36氪表示，目前，相比于千亿、数千亿参数的大模型，国内垂直行业较大模型更容易落地，也是国内芯片公司最容易落地的场景。

行业垂直客户通常存在精调训练和推理的需求，低成本且快速地采用大模型的能力。他们不想购买两种不同的芯片，训推一体化芯片能很好满足客户需求。

推出兼具训练、推理功能的芯片成为趋势，训推一体化芯片也是大多国内AI芯片公司在大模型算力需求浪潮下的抓手。

二是因为，L0级别的技术大模型厂商，更倾向于选择头部供应商。在目前争分夺秒的大模型训练阶段，国产AI芯片公司很难成为其供应商。

对阿里、百度、腾讯、面壁选择L0级别大模型的公司而言，成本不是第一要考虑的问题。为更好实现大模型效果，他们会优先选择英伟达的产品，保证从算力层面不加大与国际同行间的差距。

有行业人士曾告诉36氪，目前大模型公司的算法和数据也存在难题，大模型训练需要数月不间断，国产芯片的稳定性尚未得到充足验证。一旦训练发生中断，是算法的问题还是芯片的问题，这很难界定。大模型公司也不愿冒这个风险。

国内公司也可以满足千亿级别模型的训练需求，在单卡训练算力不足情况下，堆量是一个方法。

针对这一类需求，需要华为晟腾、昆仑芯等公司，通过RDMA互联等形式，构建出上百台服务器、数百张卡的集群，通过集群的方式堆叠算力，增加计算能力，再通过软件能力对算力统一调度。

算力资源常需要以池化的形式呈现，由于不同芯片在底层硬件和上层软件调度方式、接口上存在差异，为更好调度算力，基建通常不会采用多家公司的芯片硬件。数据中心通常更愿意采用同一种芯片，或者同一公司的不同芯片，来降低算力池化难度。这就意味着，一个数字基建工程需要选择单独一家公司的产品。

国内AI芯片公司大多成立时间不足5年，芯片需要硬件和软件层面的积累，产品需要一步一步迭代和设计。抓住需求，推出能力范围内从成本、性能角度可替代的产品，在如今这个资本相对冷却的环境下，先活下去，才能探索未来。

# AI

文章版权归作者所有，未经允许请勿转载。

黄仁勋说摩尔定律已死，Nvidia要用人工智能应对

aixure

新一代人工智能产业创新重点任务揭榜优胜单位公布

aixure

GPT之父首次回应“大模型规模已见顶”：AI的未来可能在被忽略的角落

aixure

生成式AI创企陷入困局：有钱却没数据大公司不愿分享

aixure

AWE2019展会看点 | AI演绎新时代智慧生活

aixure

英伟达CEO黄仁勋：将人工智能技术带给Arm客户

aixure

暂无评论

暂无评论...

AI芯片公司都宣传起“大模型” ｜直击WAIC2023

“普通人”想用AI赚钱，还有机会吗？

法媒：ChatGPT开发者遭美联邦贸易委员会调查

相关文章

暂无评论

相关文章