清华五道口的宇宙里,藏着一个中国AI“扫地僧”

AI1年前 (2023)发布 aixure
29 0 0
导读:最近,微软总裁布拉德史密斯在东京接受采访时的一句话,引起了人们的关注。 因为他将OpenAI的主要竞争对手定为了中国。 在史密斯看来,目前在人工智能领域,世界上三家公司处于绝对前列,一个是与微软合作的 Open AI,第二个是谷歌,第三个是北京智源人工智…

最近,微软总裁布拉德·史密斯在东京接受采访时的一句话,引起了人们的关注。

因为他将OpenAI的主要竞争对手定为了中国。

在史密斯看来,目前在人工智能领域,世界上三家公司处于绝对前列,一个是与微软合作的 Open AI,第二个是谷歌,第三个是北京智源人工智能研究院 ( 以下简称智源 )。

这个被微软总裁亲自点名的中国机构,究竟是何方神圣?

事实上,尽管名头相当低调,但这家研究院却是国内不折不扣的大模型“先行者”之一。其推出的大模型“悟道2.0”, 参数量达到了惊人的1.75万亿,这是GPT-3.5的十倍。

并且,这家机构其实很年轻2018年创建,诞生至今也不过五年。

那么,这个既低调、又年轻的机构,究竟是如何在如此短的时间内,取得了比肩谷歌与微软的技术实力,并成为深藏不露的“世界前三”的?

01 生于逆境

可以说,智源的诞生,是中国AI界在逆境中被“逼”出来的产物。

2018年,第一代 GPT 发布,包含 1.17 亿个参数,虽然效果一般,但已经和国内拉开了差距。

当时中国的人工智能领域,在各个方面均处于一种“黯淡”的状态。

在当年上榜的机构和企业数量中,中国仅有一家企业(国家电网)在人工智能领域的论文数量能跻身全球企业前20。

而当时,中国在人工智能杰出人才数量上的占比,是人工智能人才总量前十国家中最低的,仅占到本国人工智能人才总量的5.4%。

面对如此差距和困境,那年11月,在科技部和北京市委的支持下,北大、清华、中国科学院、百度、小米、字节跳动、等北京人工智能领域优势单位,共同建立了一个新型的研究机构,希望以此一改国内人工智能“乏力”的局面。

这个机构,就是今天位于北京海淀区成府路150号的智源研究院。

智源诞生后,实行理事会领导下的院长负责制,由美国国家工程院外籍院士张宏江担任理事长,北京大学信息科学技术学院教授黄铁军担任院长。

智源研究院的员工集合了一支包括清华、人大、北大等知名学府以及各合作企业组成的,不同专业方向的团队。

身为理事长的张宏江,是世界计算机领域影响因子最高的科学家之一(位居中国大陆第一),曾担任IEEE多媒体学刊的主编,拥有超过180项国际专利,出版4本学术专著、发表400多篇学术论文。

理事长张宏江

智源研究院学术委员会主席的张钹,不仅是清华大学计算机系教授,中国科学院院士,也是中国人工智能领域奠基人之一。

其在人工智能、人工神经网络等领域,已发表 200多篇学术论文和5篇专著。

张钹院士

担任智源研究院副院长、总工程师的林咏华,不仅曾任 IBM 中国研究院院长、IBM 全球杰出工程师、并且具有多年人工智能(视觉分析)、系统架构、云计算的创新研发和管理经验。

科研上,林咏华有超过 50 项全球专利,多篇学术文章发表在顶级国际会议和期刊。

智源研究院副院长林咏华

智源庞大的人才队伍,不仅汇聚了中国AI圈内的顶尖人才,其涉及的研究方向也颇为全面,包括AI数理基储AI认知神经基储机器学习、自然语言处理等。可以说涵盖了大模型领域必备各个的知识体系。

除了顶尖的研究团队,智源所拥有的雄厚技术优势,也是让微软觉得其不可小觑的原因。

2020年,智源研究院和清华大学联合发布了首个支持PyTorch框架的高性能MoE系统FastMoE。

这是一种支撑万亿模型的核心技术。

通过将神经网络分成多个子网络(也称为专家),FastMoE能将一个大任务分成多个小任务,每个小任务由一个“专家”来完成,这样做就可以让任务更加高效地完成。

其在大模型领域的意义,相当于建筑工程中的“扩大梁柱间距、增加支撑点”,能够显著提高模型的准确性和泛化能力,让模型支持大规模并行训练,扩展了模型的规模。

除此之外,在2022年,智源还打造了拥有1000P算力池九鼎智算平台。

在这里,P 是一个数量级,10 的 15 次方,1000P 就是 100亿亿,1000PFlops 算力就意味着每秒有 100 亿亿次的浮点运算能力。

一个 Atlas 800 组成的 AI 算力集群,以 1000P 算力为例,一个时钟周期可以进行“100亿亿”次计算。

以对 20 万颗星体的数据探索为例,传统方式需要一个有经验的科学家用 169 天才能完成,而在1000P的算力下,只需要 10.02 秒。

九鼎智算平台的建成,不仅打破了以往AI for Science等方向的算力限制,也让类似chatGPT这样超大参数量的大模型的训练成为了可能。

在人才、技术、算力的综合支持下,智源团队在大模型方向上的结晶悟道2.0,终于诞生了。

02 悟道2.0

目前,悟道2.0”模型的参数规模达到1.75万亿,是GPT-3的10倍,打破了之前由Google Switch Transformer预训练模型创造的1.6万亿参数记录。是中国首个、全球最大的万亿级模型。

当然,参数量越大不代表模型性能一定越好,悟道2.0的出众之处,也在于其“精准”的特点。

悟道2.0在世界公认的9项Benchmark基准测试任务上取得优异成绩,达到了精准智能。

“悟道2.0”的高精度来自于一系列核心技术创新。例如:

GLM2.0:

GLM2.0是模型架构创新的典范,更通用的预训练模型,GLM2.0模型可以同时处理多种自然语言处理任务,而不需要使用不同的模型。

通过将不同的任务模块化,GLM能够同时在分类、无条件生成和有条件生成三类NLP任务取得最优结果;在训练数据相同的前提下,其在SuperGLUE自然语言理解基准上的性能表现远超BERT。

此前,凭借这样的特点,它首次打破了BERT和GPT壁垒,开创性地以单一模型兼容所有主流架构。

而新一代版本更是以少胜多的高性能人工智能典范,以100亿参数量,足以匹敌微软170亿参数的Turing-NLG模型。

P-tuning2.0算法:

想象一下,当你只有很少的时间来学习新的东西时,你就需要更好的提示,来帮助你更快地理解和记忆。

P-tuning2.0算法就是一种类似于这种提示的方法。

但是,不同的是,它使用连续的向量来表示提示,而不是人为设计的句子或单词。这种连续向量可以在一个连续的空间中寻找最优解,从而更好地帮助机器学习模型理解任务和学习目标。

在知识探测任务等领域,P-tuning2.0算法的表现非常出色,可以提取高质量的知识,而且不需要额外的文本数据。因此,P-tuning2.0算法在少样本学习中具有很高的应用价值和性能表现。

CogView:

这是一种文本生成图像的新框架,通过将VQ-VAE和Transformer进行结合,CogView克服“上下溢收敛”文图模型关键难题。

所谓“上下溢收敛”,是指因模型结构不够复杂或者训练数据不足,导致生成的图像在训练过程中逐渐变得越来越相似,直到完全一样的情况。

而VQ-VAE和Transformer,就相当于是画家手中更好的绘画工具,能让画作更精湛。

VQ-VAE是一种用于图像和文本编码的神经网络结构,能够将输入的文本转化为潜在向量表示,而Transformer则能够更好地处理序列数据和文本信息,并通过选择不同的潜在向量表示,从而完成画作的生成。

目前,CogView在MS COCO FID指标上性能优于DALLE等模型。模型可直接实现类似OpenAI CLIP模型的自评分功能,生成国画、油画、卡通画、轮廓画等多元画风。

全链路提升:

除了上述几点外,为了提升大规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,在多个方面进行了全链路的原创突破或迭代优化:

高效编码:研发了最高效、最抗噪的中文预训练语言模型编码,解决生僻字等问题。

高效模型:构建了世界首个纯非欧空间模型,处理语言中的关系和层次结构时更加高效和准确。

高效训练:世界首创大规模预训练模型融合框架,形成高效训练新模式,训练时间缩短27.3%,速度提升37.5%。

高效微调:世界首创多类别Prompt微调,只需训练0.001%参数即可实现下游任务适配。

高效推理:世界首创低资源大模型推理系统,单机单卡GPU即可以进行千亿参数规模的模型推理。

03 创新的基因

智源打造悟道2.0的最终愿景,大模型将成为一个AI未来平台的起点,成为类似“电”的基础建设,为社会源源不断供应智源。

2021年,在2021北京智源大会上,智源研究院学术副院长唐杰就表示,悟道2.0后续将支持智源研究院牵头成立独立的模型商业化运营公司, 并将面向个人开发者、各个企业,分别提供模型开源、API(应用程序编程接口)调用、以及多模态的服务,赋能AI技术研发。

而要想促成这种不完全以商业利润为目标,而是以社会福利和公共利益为导向的大模型生态,就必须打造一种新的、更进步的科研体系。

这样的体系,既需要“集中力量办大事”的特点,又需要一种不计回报的,对基础研究的自由探索。

唯有“集中力量”,才能支撑起大模型愈发高昂的训练成本;

唯有“自由探索”,才能在基础理论领域打开局面,使之成为一种更普及的应用。

实际上,OpenAI的成功,也正是基于类似的体系。

在微软与OpenAI建立了战略合作伙伴关系后,OpenAI选择了一种新的股权投资协议模式:以投资回报速度代替投资回报水平。

而这种做法,是建立在OpenAI最终回归公益的愿景必然实现的强烈信念上。

在这样的信念下,很多顶尖的AI研究人员,加入OpenAI,希望专心、自由地思考人类的终极问题。

在这一体系下,微软的资金,加上OpenAI的自由探索精神,最终成就了今天的ChatGPT。

而立志要将大模型变为AGI时代基础设施的智源,经过探索,提出了一套自由探索+目标导向的“智源模式”:

即建立自由探索与目标导向相结合的科研管理机制,以小同行视角遴选支持智源学者自由探索,以“集中力量办大事”的科研组织模式推动“悟道”大模型等重大科研任务的实施。

而在“自由探索”这点上,智源研究院赋予了科学家最大的技术路线决定权和经费使用权,给予了科学家尽可能大的研究自由度。

而“目标导向”,就是对于学界共识的方向,智源学者们的研究能够聚焦在一个统一的愿景上,形成来自组织的合力。

托尔斯泰曾言:幸福的家庭都是相同的,不幸的家庭各有各的不幸。

而在通向AGI的大道上,我们也可以说:没落的团队都走了不同的歧路,但成功团队的路径总是相似的。

在大模型训练愈发消耗巨量资源的今天,我们可以预见,人类在AGI的成功,不会只是某一个企业的成功,而是一种新的生态,新的科研体系的成功。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...