作者 | 赵健
ChatGPT的热度正在一路狂飙。
“去年12月在机器学习圈曾持续热议过,但是没有现在每一个群都在交流和使用的状况。这是除了疫情,从未有过的现象。”有人如此感慨。
一位AI产品经理向「甲子光年」表示,或许若干年后回看AI行业的发展,会有两个标志:阿尔法狗代表AI在专业领域“干翻”人类的起点,ChatGPT代表AI在通用智能领域“干翻”人类的起点……
《财富》杂志则是这样描述的:
“在一代人的时间中总有一种产品的出现,它将从工程系昏暗的地下室、书呆子们臭气熏天的青少年卧室和爱好者们孤独的洞穴中弹射出来,变成了你的祖母Edna都知道如何使用的东西。早在 1990 年就有网络浏览器,但直到 1994 年Netscape Navigator的出现,大多数人才发现了互联网。2001 年 iPod 问世之前就已经有了 MP3 播放器,但它们并没有引发数字音乐革命。在2007 年苹果推出iPhone之前,也有智能手机,但在 iPhone 之前,没有智能手机的应用程序。
2022年11月30日,人工智能迎来了Netscape Navigator时刻。”
对于人工智能或者聊天机器人,我们并不陌生。从苹果Siri、微软小冰、智能音箱,这些人工智能产品已经融入到人们的生活中,但是基本都有一个特点还比较笨,跟我们在《流浪地球2》中看到的MOSS相差十万八千里。
但这次的ChatGPT有点不一样。它不但可以实现多轮文本对话,也可以写代码、写营销文案、写诗歌、写商业计划书、写电影剧本。虽然并不完美、也会出错,但看起来无所不能。
连埃隆马斯克都评价道:“ChatGPT好得吓人,我们离危险的强人工智能不远了。”
而且,ChatGPT也不仅仅是一个打发时间的聊天机器人,微软与谷歌此时此刻正在因为ChatGPT的出现筹备一场关乎未来的AI大战。而国内的科技公司,也在努力思考着如何搭上驶向未来的船票,无论是以蹭概念,还是真产品的方式。
这一切,ChatGPT是如何做到的?本文,「甲子光年」将首先回答几个最基础的问题:
1.ChatGPT,生成式AI的王炸
刚刚过去的2022年,从硅谷到国内的科技公司,上上下下都蔓延着一股“寒气”。但是,AI行业却完全是另一番热闹的景象。
这一年,通过输入文本描述就能自动生成图片的AI绘画神器突然雨后春笋般冒了出来,其中最具代表性的几家为第二代DALLE(由OpenAI于2022年4月发布)、Imagen(谷歌2022年5月发布)、Midjourney(2022年7月发布)、Stable Diffusion(2022年7月发布)等,让人眼花缭乱。
2022年9月,由Midjourney创作生成的画作《太空歌剧院》在科罗拉多州博览会数字艺术创作类比赛中获得一等奖并引发争议,AI绘画进一步破圈,受到大众关注。
图片来自网络
AI绘画是AI发展的里程碑级应用,但没过多久人们便发现,AI绘画只是“四个二”,真正的“王炸”在11月30日上线ChatGPT。
去年12月,我们曾与ChatGPT做过一次对话。
从AI绘画到ChatGPT,它们都属于AI的一个分支生成式AI(Generative AI),在国内也被称为AIGC(AI Generated Content)。
2022年9月,红杉资本发布了一篇重磅文章《生成式AI:一个创造性的新世界》(Generative AI: A Creative New World),首次提出生成式AI这一概念。
红杉资本将生成式AI分为文本、代码、图片、语言、视频、3D等数个应用场景。红杉资本认为,生成式AI至少可以提高10%的效率或创造力,有潜力产生数万亿美元的经济价值。
图片来自红杉资本
凭借生成式AI的风口,一些AI绘画公司开始拿到巨额融资。2022年10月,Stable Diffusion模型背后的公司Stability AI宣布获得1.01亿美元种子轮,投后估值达10亿美元;另一家AI内容平台Jasper亦宣布获1.25亿美元新融资,估值达17亿美元。
据Leonis Capital统计,自2020年以来,VC对生成人工智能的投资增长了400%以上,2022年则达到惊人的21亿美元。
在文章中,红杉资本将AI分为“分析式AI”与“生成式AI”两大类,分析式AI主要用在垃圾邮件检测、预测发货时间或者抖音视频推荐中,也是过去几年最常见、发展最快的AI类型。国内的AI四小龙商汤、旷视、云从、依图皆属于此类。
生成式AI则聚焦于知识工作与创造性工作,从社交媒体到游戏,从广告到建筑,从编码到平面设计,从产品设计到法律,从营销到销售。
在2015年之前,人工智能基本是小模型的天下。
过去的微软小冰、苹果Siri、智能音箱,以及各个平台的客服机器人背后都是小模型,在其系统中包含若干Agent(知行主体,可以理解为执行具体任务的程序),一个专门负责聊天对话、一个专门负责诗词生成、一个专门负责代码生成、一个专门负责营销文案等等。
如果需要增加新功能,只需要训练一个新的Agent。如果用户的问题超出了既有Agent的范围,那么就会从人工智能变为人工智障。
但是ChatGPT不再是这种模式,而是采用了“大模型+Prompting(提示词)”。大模型可以理解为背后只有一个Agent来解决用户所有的问题,因此更加接近AGI(通用人工智能)。
ChatGPT的出现不亚于在人工智能行业投下了一枚“核弹”。前微软CEO比尔盖茨对ChatGPT评价为“不亚于互联网诞生”,现微软CEO萨提亚纳德拉将其盛赞为“堪比工业革命”。如今,有越来越多的公司开始将ChatGPT融入其产品中,或者推出类ChatGPT的产品。
对此,ChatGPT是如何做到的?
2.OpenAI缠斗谷歌
ChatGPT背后的公司为OpenAI,成立于2015年,由特斯拉CEO埃隆马斯克、PayPal联合创始人彼得蒂尔、Linkedin创始人里德霍夫曼、创业孵化器Y Combinator总裁阿尔特曼(Sam Altman)等人出资10亿美元创立。
OpenAI的诞生旨在开发通用人工智能(AGI)并造福人类。
当时,谷歌才是人工智能领域的最强公司。2016年打败人类围棋冠军的阿尔法狗背后的AI创企DeepMind,就是由谷歌收购。
这一年5月,谷歌CEO桑德皮查伊(Sundar Pichai)宣布将公司策略从“移动为先”转变成“人工智能为先”(AI First),并计划在公司的每一个产品上都应用机器学习算法。
OpenAI诞生的初衷,部分原因就是为了避免谷歌在人工智能领域形成垄断。OpenAI起初是一个非营利组织,但在2019年成立OpenAI LP子公司,目标是盈利和商业化,并引入了微软的10亿美元投资。前YC孵化器总裁阿尔特曼就是此时加入OpenAI担任CEO。
ChatGPT名字中的GPT(Generative Pre-trained Transformer ,生成式预训练变换器),是OpenAI推出的深度学习模型。ChatGPT就是基于GPT-3.5版本的聊天机器人。
GPT的名字中包含了大名鼎鼎的Transformer,这是由谷歌大脑团队在2017年的论文《Attention is all you need》中首次提出的模型。现在来看,这是人工智能发展的里程碑事件,它完全取代了以往的RNN(循环神经网络)和CNN(卷积神经网络)结构,先后在NLP(自然语言处理)、CV(计算机视觉)领域取得了惊人的效果。
最初的Transformer模型有6500个可调参数,是当时最先进的大语言模型(Large Language Model, LLM)。谷歌公开了模型架构,任何人都可以用其搭建类似架构的模型,并结合自己手上的数据进行训练。
特斯拉自动驾驶,预测蛋白质结构的AlphaFold2模型,以及本文的主角OpenAI的GPT,都是在Transformer的基础上构建的。正如它的中文名字一样变形金刚。
Transformer出现之后,很多公司基于Transformer做NLP模型研究,其中OpenAI与谷歌就是最重要的两家。
2018年,OpenAI推出了1.17亿参数的GPT-1,谷歌推出了3亿参数的BERT,双方展开了一场NLP的较量。
GPT与BERT采用了不同的技术路线。简单理解,BERT是一个双向模型,可以联系上下文进行分析,更擅长“完形填空”;而GPT是一个单项模型,只能从左到右进行阅读,更擅长“写作文”。
两者的表现如何呢?发布更早的GPT-1赢了初代Transformer,但输给了晚4个月发布的BERT,而且是完败。在当时的竞赛排行榜上,阅读理解领域已经被BERT屠榜了。此后,BERT也成为了NLP领域最常用的模型。
但是这场AI竞争才刚刚开始。OpenAI既没有认输,也非常“头铁”。虽然GPT-1效果不如BERT,但OpenAI没有改变策略,而是坚持走“大模型路线”。
在OpenAI眼中,未来的通用人工智能应该长这个样子:“有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它应该能听懂人类的命令,以便于人类使用。”
换句话说,就是大力出奇迹!
接下来的两年(2019、2020年),在几乎没有改变模型架构的基础上,OpenAI陆续推出参数更大的迭代版本GPT-2、GPT-3,前者有15亿参数,后者有1750亿参数。
GPT-2在性能上已经超过BERT,到GPT-3又更进一步,几乎可以完成自然语言处理的绝大部分任务 ,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答,甚至还可以依据任务描述自动生成代码。
GPT-3大获成功。OpenAI在早期测试结束后开始尝试对GPT-3进行商业化,付费用户可以通过API使用该模型完成所需语言任务,比如前文提到的AI绘画独角兽Jasper就是GPT-3的客户。
值得一提的是,这个过程中谷歌也在不断推出新的模型。但不同于OpenAI“从一而终”地坚持GPT路线,谷歌在BERT之后也推出了T5、Switch Transformer等模型,类似于赛马机制。
此时距离ChatGPT的诞生还差一步。
3.意料之外的走红
在GPT-3发布之后,OpenAI研究人员在思考如何对模型进行改进。
他们发现,要想让GPT-3产出用户想要的东西,必须引入“人类反馈强化学习机制”(RLHF),通过人工标注对模型输出结果打分建立奖励模型,然后通过奖励模型继续循环迭代。
而聊天机器人就是引入强化学习的最佳方式,因为在聊天过程中,人类的对话就即时、持续地向模型反馈数据,从而让模型根据反馈结果进行改进。因为加入了人工标注环节,OpenAI为此雇佣了大约40位外包人员来与机器人对话。
通过这样的训练,OpenAI获得了更真实、更无害,并且更好地遵循用户意图的语言模型InstructGPT,在2022年3月发布,并同期开始构建InstuctGPT的姊妹模型ChatGPT。
图片来源真格基金
根据《财富》杂志报道,当ChatGPT准备就绪后,OpenAI一开始并没有想把它向公众开放,而是先让测试人员使用。
但根据OpenAI联合创始人兼现任总裁Greg Brockman的说法,这些测试人员不清楚应该与这个聊天机器人谈论什么。后来,OpenAI试图将ChatGPT转向特定领域的专业人士,但缺乏专业领域的训练数据。
OpenAI最终不得不决定将ChatGPT向公众开放。“我承认,我不知道这是否会奏效。” Brockman说。
在《纽约时报》的报道中,OpenAI发布ChatGPT还有另外一个理由:担心对手公司可能会在GPT-4 前发布他们的人工智能聊天机器人,因此要抢先发布。
总之,在2022年11月30日这天,ChatGPT诞生了。
ChatGPT成为了史上蹿红最快的应用。发布第五天,ChatGPT就积累了100万用户,这是Facebook花了10个月才达到的成绩;发布两个月,ChatGPT突破了1亿用户,对此TikTok用了大约九个月,Instagram用了两年多。
ChatGPT的迅速传播连OpenAI也猝不及防,OpenAI首席技术官Mira Murati说:“这绝对令人惊讶。”在旧金山VC活动上OpenAI CEO阿尔特曼说,他“本以为一切都会少一个数量级,少一个数量级的炒作”。
值得一提的是,OpenAI并非唯一的大模型聊天机器人。2021年5月,谷歌也发布了专注于生成对话的语言模型LaMDA,但直到现在谷歌仍未对外“交卷”。本周谷歌匆忙发布的用于对抗ChatGPT的聊天机器人Bard就由LaMDA支撑,但Bard的上线日期也未公布。
在这场OpenAI与谷歌持续数年的大模型竞争中,谷歌最终落了下风。
4.代价是什么?
但ChatGPT的成功,也让OpenAI付出了代价,“烧钱”的代价。
过去几年,大模型俨然成为了一场AI的军备竞赛。在2015年至2020年期间,用于训练大模型的计算量增加了6个数量级,在手写、语音和图像识别、阅读理解和语言理解方面超过了人类性能基准。
图片来自红杉资本
OpenAI的成功让人们见识到了大模型的威力,但是大模型的成功可能难以复制,因为太烧钱了。
OpenAI很早就意识到,科学研究要想取得突破,所需要消耗的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。而且,AI人才的薪水也不便宜,OpenAI首席科学家Ilya Sutskever在实验室的头几年,年薪为190万美元。
OpenAI CEO阿尔特曼在2019年对《连线》杂志表示:“我们要成功完成任务所需的资金比我最初想象的要多得多。”
这也是OpenAI从非营利性组织成立商业化公司的原因。2019年7月,重组后的OpenAI获得了微软的10亿美元投资,可借助微软的Azure云服务平台解决商业化问题,缓解高昂的成本压力。
解决了粮草问题的OpenAI,开始全力训练大模型。
大模型背后离不开大数据、大算力。GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。
在算力方面,GPT-3.5在微软Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约 3640PF-days(即每秒一千万亿次计算,运行3640天)。
可以说,大模型的训练就是靠烧钱烧出来的。据估算,OpenAI的模型训练成本高达1200万美元,GPT-3的单次训练成本高达460万美元。
根据《财富》杂志报道的数据,2022年OpenAI的收入为3000万美元的收入,但净亏损总额预计为5.445亿美元。阿尔特曼在推特上回答马斯克的问题时表示,在用户与ChatGPT的每次交互中OpenAI花费的计算成本为“个位数美分”,随着ChatGPT变得流行,每月的计算成本可能达到数百万美元。
大模型高昂的训练成本让普通创业公司难以为继,因此参与者基本都是的科技巨头。
图片来自陈巍博士
在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。
一个需要明确的事实是,虽然OpenAI的大模型取得了成功,但模型并非绝对意义上的越大越好,参数量也只是影响最终模型性能的因素之一。
GPT-3也不是参数最大的模型,比如,由英伟达和微软开发的Megatron-Turing NLG模型,拥有超过5000亿个参数,但在性能方面并不是最好的,因为模型未经充分的训练。
实际上,在特定场景下,较小的模型可以达到更高的性能水平,而且成本更低。
一位AI从业者告诉「甲子光年」:“现实就是,NLP公司做to B只能做小模型。得私有化,工程性能好,计算消耗少。甲方还希望你能部署在CPU上呢。”
关于大模型与小模型的关系,我们会在后面的文章中继续讨论。
5.钱都流向了哪里?
以ChatGPT为代表的生成式AI正在引发新一轮AI军备竞赛,这个特别烧钱的新兴市场,也让背后的基础设施厂商赚得盆满钵满。
著名风投机构A16Z将生成式AI市场分成了三层:
◆应用层:将第三方API或自有模型集成到面向用户的产品中,比如AI绘画应用Jasper、Midjourney;
◆模型层:为应用层提供能力,比如闭源的GPT-3,或者开源的Stable diffusion;
◆基础设施层:为生成人工智能模型运行培训和推断工作负载的云平台和硬件制造商。
图片来自A16Z
生成式AI的大量资金最终都稳定地流向了基础设施层以亚马逊AWS、微软Azure、谷歌GCP为主的云厂商,以及以英伟达为代表的GPU厂商。
据A16Z估计,应用层厂商将大约20%~40%的收入用于推理和模型微调,这部分收入通常直接支付给云厂商或第三方模型提供商,第三方模型提供商也会将大约一半的收入用于云基础设施。因此,总的来看生成式AI总收入的10%~20%都流向了云提供商。
微软投资OpenAI就是一个很好的案例。
2019年微软投资OpenAI 10亿美元,其中大约一半以Azure云计算的代金券形式,成为OpenAI 技术商业化的“首选合作伙伴”,未来可获得OpenAI 的技术成果的独家授权。今年1月23日,微软再次加码,宣布向OpenAI追求数十亿美元,来加速人工智能的突破。
根据《财富》杂志报道,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润直到收回投资成本;当OpenAI赚取920亿美元的利润后,微软的份额将降至49%。与此同时,其他风险投资者和 OpenAI的员工也将有权获得OpenAI 49%的利润,直到他们赚取约1500亿美元。如果达到这些上限,微软和投资者的股份将归还给OpenAI的非营利基金会。
本质上,OpenAI是在把公司借给微软,借多久取决于OpenAI赚钱的速度。微软对OpenAI的投资更大的野心在于,希望在下一个人工智能的十年向谷歌以及其他科技巨头发起挑战。
在今年1月份的瑞士达沃斯论坛期间,微软CEO纳德拉表示,微软将全线接入ChatGPT,计划将ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云服务、Teams聊天程序等等。
本周,新版Bing正式发布。纳德拉霸气表示:“比赛今天开始了,我们将继续前进并快速行动,希望在搜索领域再次获得更多创新的乐趣。”
除了微软之外,英伟达则是生成式AI幕后最大的赢家。
云厂商每年总共花费超过1000亿美元的资本支出,来确保他们能够拥有最全面、最可靠和最具成本竞争力的平台,比如获得英伟达最先进、也是最稀缺的GPUA100与H100。GPU成为了生成式AI发展上限“卡脖子”的一环。
英伟达过去一个月的股价涨幅甚至超过了微软。
ChatGPT在科技圈引发的震动仍在持续。一个不可否认的事实是,国内的AI公司多少处于一种置身之外的感受。人们惊叹于技术的进步,也感慨于实力的差距。
对此,云知声创始人黄伟如此评价:
接下来,国内科技公司会如何接招呢?