AI巨头看好的兵家必争之地，争相共促繁荣

AI1年前 (2023)发布 aixure

69 0 0

导读：近日，一则微软英伟达推最大单体AI语言模型的消息再次将人工智能大模型推向风口浪尖。而这距全球最大中文单体AI语言模型浪潮源1.0发布尚不足半个月时间。不仅如此，关注该领域的人士都会发现，近年来BERT、GPT-3等大规模预训练模型取得了巨大成功，成为人工…

近日，一则“微软英伟达推最大单体AI语言模型”的消息再次将人工智能大模型推向风口浪尖。而这距全球最大中文单体AI语言模型浪潮源1.0发布尚不足半个月时间。不仅如此，关注该领域的人士都会发现，近年来BERT、GPT-3等大规模预训练模型取得了巨大成功，成为人工智能领域的一个里程碑，同时也吸引谷歌、微软、浪潮等AI产业巨擘纷纷入局。

大块头有大智慧

从去年OpenAI的GPT-3的1750亿参数大模型开始，陆续有Google Switch Transformer 1.6万亿混合模型，阿里达摩院M6 的1万亿参数混合模型，浪潮源1.0的2457亿单体模型和微软英伟达Megatron-Turing的5300亿参数单体模型等，AI大模型如雨后春笋，不断涌现。

而这一切的开端，是OpenAI 的GPT-3，该模型一经发表就引发了AI界的广泛关注。因为这一版本有着1750 亿的巨大参数量，比以前的GPT-2高100倍，该模型经过将近500G高质量数据集的预训练后，能够写小说、编剧本、敲代码。“无所不能”的GPT-3吸引了全球数以万计开发人员，目前有300多种应用程序在使用 GPT-3，每天生产 45 亿个字符。GPT-3的惊人发展，不断验证“大块头有大智慧”，其缔造者OpenAI也掀起了一场“大”模型的全球“竞赛”。

就在前两天，微软和英伟达联合推出的Megatron-Turing自然语言生成模型(MT-NLG)再度以5300亿参数量刷新了单体模型参数量纪录。该模型汇集了微软DeepSpeed项目和英伟达Megatron项目在并行训练和超大型人工智能模型的训练优化的成功经验，基于105层Transformer的MT-NLG在zero-shot、one-shot和few-shot等方面对SOTA模型进行改进，通过具有更多模型参数、更多训练数据和更多训练时间，使用835GB数据集的预训练后，获得了对语言更丰富、更细致的理解，在很多数据集上也展现出了不错的zeroshot或few-shot泛化性能。

众所周知，英文有天然的空格作为分隔符，分词更加容易。而中文分词由于缺乏统一标准，以及大量存在的歧义词、新词和中英文混合词语，所以无论是中文的学习难度还是中文自然语言分析的难度均远高于英文。

而在中文自然语言分析领域，浪潮人工智能研究院于9月底发布的“源1.0”，以单体模型参数量2457亿，同样创下单体大模型的中文参数量最高纪录。源1.0中文巨量模型训练采用的高质量中文数据集高达5000GB，相比GPT-3模型1750亿参数量和570GB训练数据集，源1.0参数规模领先40%，训练数据集规模领先近10倍，在数据及方面同样也遥遥领先于Megatron-Turing的835GB。

在应用效果方面，“源1.0”在语言智能方面表现优异，获得中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军。在零样本学习榜单中，“源1.0”超越业界最佳成绩18.3%，在文献分类、新闻分类，商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军；在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中，源1.0的表现已超越人类得分。

如果抛开上面反复提及的“单体模型”这个限定词，目前全球最大的“混合模型”要数谷歌在今年 1 月就已经推出的万亿参数模型Switch Transformer，它将大模型拆分成多个小模型，其参数量虽然高达1.6万亿，但相比浪潮源1.0和MT-NLG等千亿级“单体模型”，其精度、计算量要低很多，智源悟道2.0，阿里M6等模型均属于此类。

巨头抢滩布局AI大模型

当然，目前国外国内超大模型远远不止这些，想必所有人都想知道为什么这些全球巨头都要追求“大”模型呢？浪潮人工智能研究院首席研究员吴韶华博士认为，AI模型的规模越来越大，背后其实是有一些内在的驱动力。

从底层原理上来看，在NLP领域通过对模型结构调整所能获得的精度提升非常有限，但是同样的模型通过增加参数量、增加计算量，也就是提升模型的规模，却能获得比较好的精度改善。这一点在Open AI的GPT-3推出之后，不但让大家看到规模化的参数量带来的“奇迹”，也体现出了大模型小样本学习和零样本学习的能力。

这些能力也让大模型成为公认的最有可能实现通用人工智能的技术。尤其在NLP领域，巨量模型凭借其在多任务泛化及小样本学习上表现的突出能力，成为探索深度学习的极限，进一步真正理解语言，探索通用智能的关键。

斯坦福大学李飞飞教授等人工智能领域知名学者近期也在论文中表示，巨量模型的意义在于突现和均质。突现意味着通过巨大模型的隐含的知识和推纳可带来让人振奋的科学创新灵感出现；均质表示巨量模型可以为诸多应用任务泛化支持提供统一强大的算法支撑。

对于全球巨头抢滩布局AI大模型领域这种现象，浪潮信息副总裁刘军认为，首先这证明了大模型是一个正确的发展方向，也蕴含着巨大的发展潜力；其二，未来智慧化转型有赖于通用人工智能技术的突破性进步与普及速度，越多的企业入局大模型领域就越能够推动行业智慧化的快速发展。

# AI