联想集团CTO芮勇｜AI大模型为智能变革带来机遇和挑战

AI2年前 (2023)发布 aixure

64 0 0

导读：芮勇博士是联想集团首席技术官、高级副总裁，同时也是联想集团最高决策机构(LEC)成员以及联想技术委员会副主席。他负责联想集团技术战略和研发方向的规划和制定，并领导联想研究院的工作。在加入联想之前，芮勇博士曾在微软工作18 年，任微软亚洲研究院常务…

芮勇博士是联想集团首席技术官、高级副总裁，同时也是联想集团最高决策机构(LEC)成员以及联想技术委员会副主席。他负责联想集团技术战略和研发方向的规划和制定，并领导联想研究院的工作。在加入联想之前，芮勇博士曾在微软工作18 年，任微软亚洲研究院常务副院长。他是中国计算机学会会士，中国人工智能学会会士，ACM Fellow，IEEE Fellow，IAPR Fellow和SPIE Fellow，以及欧洲科学院外籍院士。

近日，芮勇博士接受了《中国计算机学会通讯》(CCCF)的专访，分享了他对火爆全网的ChatGPT等大模型的看法，以及大模型为企业智能化变革带来的机遇和挑战。

CCCF：最近ChatGPT火爆全网，您对此怎么看待？

芮勇博士：ChatGPT是OpenAI GPT系列中为对话场景优化的语言模型，属于Foundation Models，即基础模型，这里我们简称为“大模型”。它的特点可以概括为“一大三多”：一大是指参数规模大，大模型是千亿参数级别的超大型人工智能模型；三多是指利用多来源、多模态、多任务的互联网规模海量数据进行训练。这些训练数据大多是未标记的，模型通过无监督的方式进行预训练，然后适配到各种各样的下游任务，例如自动问答、情感分析、信息提娶图像标注、物体识别、指令执行等等。

大模型首先在内容理解领域大获成功，例如BERT问世时刷新了11项自然语言理解任务的记录。最近大模型又在内容生成领域取得了瞩目成就，也就是我们所说的AIGC。ChatGPT就属于AIGC的范畴，因为ChatGPT本质上是个生成式语言模型，根据上下文语境计算下一个最可能出现的单词，进而生成完整的句子。除了文本生成，大模型也可以成功地应用于代码生成，根据问题描述自动生成代码，或是根据上下文修正代码中的错误。不难理解，代码是程序员与计算机交流的语言，语言模型可以从自然语言扩展到编程语言。此外，大模型还能根据自然语言描述，生成相应的图像和视频，甚至是超现实的艺术作品，这使得普通人也能进行创作。所有这些都是大模型在内容生成领域的进展。

CCCF: 大模型背后都有哪些技术使它如此成功呢？

芮勇博士：我们可以从以下几方面来理解大模型背后的创新性技术。

从模型规模方面，大模型已经具有数千亿参数，这样的规模使得模型能学习到大量的模式与常识，甚至建立一定的推理能力。例如，早期的深度神经网络VGG-16有1.38亿个参数，ResNet-152有6000万个参数；而大模型GPT-3有1750亿参数，Google PaLM有5400亿参数。可见，大模型比早期的深度神经网络大数千倍；

从训练数据来看，大模型是用互联网级别的海量数据训练出来，这种规模的数据集包含丰富的模式、知识和常识。例如GPT-3使用了爬取的文本、高质量的网页、维基百科，和书籍语料库，总数据量约5千亿词元(tokens)；

从训练方式来看，机器学习典型的方式是采用全监督方式训练，即训练样本需要有标注。而人工数据标注是传统人工智能系统的瓶颈。近几年发展起来的自监督学习方法，可以使模型直接从未标记的样本中学习特征表示，有效地避免了耗时耗力的人工标注问题。另外，针对语言模型而言，ChatGPT采用了RLHF (Reinforcement Learning from Human Feedback) 技术，基本思路就是在训练阶段使用强化学习的方法，直接用人的偏好来优化模型的输出结果；

从泛化能力来看，对传统人工智能系统来说，AI模型部署后遇到的环境变化是一个巨大的挑战，往往需要一定数量的领域特定样本来微调或更新预训练模型。而大模型无需更新模型参数，即有多任务多领域的适应能力，甚至可以应对训练时没有遇到过的任务类型和问题领域。

CCCF：人们普遍认为大模型催生了AI的新范式，那具体怎么来理解呢？

芮勇博士：我们可以回顾GPT的发展历程来理解AI范式的转变。GPT系列论文的题目就指明了它的发展阶段：

GPT-1，Improving Language Understanding by Generative Pre-training (生成式预训练提升语言理解能力)。它使用预测下一个词的方式训练出基础的语言模型，对语言产生了理解。然后针对分类、蕴含、近义、多选等下游任务，使用特定数据集，更新模型参数，对模型进行调优与适配；

GPT-2，Language Models are Unsupervised Multitask Learners (语言模型是无监督的多任务学习者)。这个阶段的GPT通过多任务学习，获得了迁移学习的能力，它初步显示了零样本(zero-shot)设定下执行各类任务的能力，而无需进行任何参数或架构修改；

GPT-3，Language Models are Few-Shot Learner (语言模型是小样本学习者)。GPT显示出强大的in-context learning能力，即用户用少样示例来说明任务(prompt)，例如给出几对英语到法语的单词做为示例，再给出一个英语单词，GPT即可理解用户意图是要做翻译，继而给出对应的法语单词；

ChatGPT(GPT-3.5)，Optimizing Language Models for Dialogue (为对话场景优化语言模型)。这时的GPT进化到指令执行(instruction following)能力，即不必给示例，只要使用自然语言给出指令，GPT就可以理解用户意图。比如，直接告诉GPT要把某个英语单词译法语，GPT即可执行给出结果。

简单来讲，AI范式的转变，是从“针对特定任务，更新预训练模型”(small models + fine-tuning)转换到“根据上下文提示自动理解并执行各类任务，无需更新模型参数或架构”(large models + in-context learning)。

CCCF：ChatGPT的成功，让有些人看到了由大模型通往AGI (通用人工智能) 的曙光，对此您怎么看？

芮勇博士：关于大模型能走多远，前景到底如何，是否能实现“多任务，多模态，多化身的大一统”，目前还颇有争议。近几年大模型有了突破式进展，很多人持乐观态度。例如，DeepMind 研究主任 Nando de Freitas 的观点是“规模致胜”，认为只要把模型的规模做大，AI领域的很多难题就解决了，游戏结束了！然而UC Berkeley教授Jitendra Malik表达了反对观点，认为这些大模型是空中楼阁。提出Foundation Models这一术语的论文作者Bommasani etc. 也表达了类似的担忧，认为尽管大模型即将广泛部署，但目前我们缺乏对它们工作原理、以及“涌现”性质的清晰理解。

从Gartner技术成熟度曲线可以看到，大模型目前处于“期望膨胀阶段”(Peak of Inflated Expectations) 。人们对它的期望很高，但我们也应该看到，大模型尚未解决的问题还很多。比如谷歌版的ChatGPT，取名Bard，首次公开展示就出现回答结果不准确的问题，导致公司市值一天之内蒸发超1000亿美元。此外，对话机器人生成句子里包含的信息无法溯源，甚至包含偏向性和冒犯性言论等等。可见，通往AGI的道路还很漫长。

CCCF：能玩得起大模型的公司毕竟是少数，非巨头公司应该如何应对呢？

芮勇博士：我们先从技术角度来看看大模型取得突破式进展的原因。从GPT的发展历程中，我们可以看到，大模型背后的算法包括元学习(meta-learning)，小样本学习(few-shot learning)，多任务学习(multi-task learning)，强化学习(reinforcement learning)，人机回环(human-in-the-loop)，上下文学习(context learning)等等。其实这些算法都是机器学习领域的基础性问题。近年来这些算法的发展，催生了今天大模型的成功，只不过有些算法在大模型里是隐式实现，有些是与传统方式不同的实现。

我们关注大模型的成功，更要关注背后这些基础算法的作用。我们可以把这些基础算法和先进理念应用到自己的AI技术和产品开发当中。可以理解为，化整为零，即这些基础核心算法单独使用；化零为整，即实现“大一统”的大模型。另外，大模型会逐渐形成生态，非巨头公司可以站在大模型这个肩膀之上，聚焦工具链，开发应用，或是考虑使用大模型更新业务模式、创新产品形态。

CCCF：大模型的目标为“大一统”，多种不同任务都可以由单一的大模型来完成，并且在越来越多的任务上实现新的突破。那么，应用AI的企业在未来是否要全面转向大模型呢？

芮勇博士：将一项技术注入产品或赋能业务，需要综合考虑很多因素。当前阶段的大模型还有很多问题没有解决。另外，用户场景产生的需求不同，应用程序的运行环境也各异，大模型并不是普遍适用的。比如，ChatGPT的知识库截止到2021年，它无法回答时效性问题，或是进行新闻资讯类对话。也就是说，对于需要不断知识更新的业务场景，目前它还不能胜任。这也是ChatGPT嵌入搜索引擎时的一个重要考虑因素。

再比如，大模型表现出多领域多任务的泛化能力，但我们对这种预训练模型无需微调的泛化能力还缺乏清晰的认知。对于工业应用，产线上的缺陷检测，对模型可靠性的要求很高，如果出现“时灵时不灵”，则会造成重大损失。另外，大模型的参数量在数千亿级别，使用时需要设备端与云端实时联接，那么对于网络通讯能力较弱的嵌入式设备，也不适合使用。当运行环境再苛刻一些，比如仅需要运动检测或唤醒词功能的IoT设备，设备功耗在毫瓦的数量级，不能联网，内存和计算资源也相当有限，这就更不适合大模型的应用了。

CCCF：大模型的兴起给从事AI的企业带来了哪些机会呢？

芮勇博士：大模型的兴起，为进行智能化变革的企业带来了很多新的机遇。以微软为例，目前已经推出了编程辅助工具Copilot，在程序员写代码时自动提供建议。微软还引入AI图像生成器DALL-E 2帮助设计者生成图像，只要输入自然语言描述，AI图像生成工具就会自动生成符合描述的图像。Bing和Office也计划整合ChatGPT，实现对话式搜索和内容生成的新体验。百度已经将大模型用于行业智能解决方案上。为更好地适配不同行业的任务和提升任务精度，百度的文心大模型使用行业特有的知识与数据对模型进行定制，目前已经发布了11个行业大模型，促进大模型的应用落地。联想借鉴大模型背后的基础性算法，将小样本学习应用到基于计算机视觉的产品缺陷检测当中，提升了质检系统对新产品和新产线的快速迁移能力；此外，联想还将强化学习技术和人机协作的理念应用到供应链优化当中，使得供应链在剧烈变化的环境中，不断提升韧性。

大模型的开发、训练、部署、推理为云计算业务的进一步发展创造了新的机会，因为大模型所需的海量计算资源只有云侧才能提供。云平台可以为大模型开发者提供全栈的硬件、软件、工具和服务，以便大数据的存储和大模型的训练。训练好的大模型可以部署在云平台上，提供给终端用户调用。此外，大模型带来的社会问题也需要解决，如AIGC带来的一本正经地说瞎话、真假内容泛滥、人类难以鉴别等，解决好这些问题也会有巨大的商业价值和社会价值。

值得注意的是，大模型的变现模式还不是十分清晰。例如，谷歌担忧引入对话式搜索会影响用户点击搜索结果页面的广告，从而直接影响广告收入。新技术冲击旧模式的同时，也可能会带来新的商业机会。正如Open AI首席执行官Sam Altman指出的“数据飞轮”理念，即使用更多数据可以训练出更好的模型，吸引更多用户，从而产生更多用户数据用于训练，形成良性循环。

CCCF：联想将在AI新范式和大模型普及中发挥怎样的作用，会有哪些行动呢？

芮勇博士：长远来看，很有可能AI新范式(large models + in-context learning)与旧范式(small models + fine-tune)共存，或是相互结合，而不会单个范式一统天下。联想将充分发挥“端-边-云-网-智”新IT架构的优势，来支撑新旧范式的结合与转换。联想提出的新IT架构，既致力于推动自身的智能化变革，也着眼于赋能各行各业的智能化转型。从刚才我们对新旧范式的分析可以看出，AI模型对运行环境需求越来越高，例如云-边-端的高度协同，异构计算与负载均衡、设备之间的互联互通、数据安全与隐私保护、模型本身的伸缩性与扩展性等等。联想在这些方面都有着深厚的技术积累，新IT架构在AI新范式加速智能化变革的过程中也会继续发挥重要作用。

除了基础架构之外，联想还在考虑AIGC技术在产品和业务里的应用。比如，在智能设备中对跨模态的生成模型进行优化和裁剪，使之能加载到手机或平板上实现个性化内容生成。在智能解决方案方面，我们考虑把AIGC用于新产品营销与新客户触达。目前，大模型还没有与知识有效结合，我们正在研究数据驱动与知识驱动相结合的方法，即Hypid Learning来改进大模型的不足。另外，在大模型落地过程中，也需要彻底解决对环境变化或是新领域、新任务的自适应问题，即Adaptive Learning，这些都是联想人工智能的探索方向。

[声明]

该文未经许可，禁止进行转载、摘编、复制及建立镜像等任何使用。如需转载，请通过向CCFvoice公众号后台申请并获得授权。联想集团已获官方授权。

# AI