Lanmeih/编者按
一年超过700亿美元的融资总额,没人敢否认,这个世界对于AI产业的痴迷与疯狂。
但2023年初国产科幻影视的崛起,还是给这个火热的赛道又添了一把柴。
《流浪地球2》《三体》相继爆火,刹那间撕开了中国科幻的黎明,亦点燃了全民科幻热情。而鲜有人知,在中国,科幻电影中的想象,早已落地于现实。
电影爆火之后,网友在微博上开启了这样一个话题#你们尽管想象,我们负责实现#,话题之下,中国航天科技集团、中核集团、中国石化、徐工等企业相继出现,认领电影中出现的黑科技场景,承诺可以办到。
而更令人意外的是,除了基建实力雄厚的“中字头”,更多名不见经传的初创公司也随之浮出水面。它们普遍没有雄厚的背景,仅凭技术宅的专业和执着,在各大产业园里默默耕耘。
外骨骼、虚拟现实、无人卡车、工业机器人……这些推动情节高潮迭起的“幻想”,早已被他们搬进了现实。
若不是这样一次破圈联动,或许我们对国产科技水平的了解还知之甚少。我们也远不清楚,属于自己的太空电梯,早已朝着星辰大海的方向默默搭建。
AI蓝媒汇试图搭建一个桥梁,让这些默默耕耘的企业,在影视剧之外也能更多地被看见。本文为AI蓝媒汇策划《科幻照进现实》第四期。
这一次,我们聚焦位于北京的风平智能,聊聊《流浪地球2》中出现的数字生命计划,是如何在现实中被应用的。
来源|AI蓝媒汇
ID :lanmeih001
作者|伊柒
编辑|韩小黄
在电影《流浪地球2》中,出现了两位“数字人”。
一位是图丫丫,影片里夭折的生命被图恒宇复原在电脑中,获得了“完整的一生”;另一位,则是现实中因病逝世的香港影星吴孟达,球2制片方通过数字人技术复现了他的形象和声音,让观众于银幕之中再次见到了这位影界传奇。
球2世界观中,“数字生命”曾是人类延续文明火种的计划之一,旨在将人的肖像和思维模式录入计算机,成为一种高度先进的人工智能这个数字人将和你拥有相同的记忆、语调和逻辑习惯,成为你永生的分身。
电影里的图丫丫,就以这种方式被存储进了不断迭代的计算机中,以另一种方式延续着生命从初代仅能维持数秒的短暂交互,直至影片结尾完整复述出共计三万数位的互联网跟服务器密码;现实中的吴孟达,同样以数字人的形式出现,照应球1角色的同时也勾起了无数影迷的回忆。
同一时期,ChatGPT横空出世,人们惊讶于这个“AI2.0时代”奇点所带来的理解能力和创造能力,并猜测ChatGPT是否能最终替代人类:乐观者期待同样同类型的人工智能迅速普及,成为人的分身去完成工作,为打工人们减负;悲观者则质疑,质疑还原程度如此之高的“假人”,会否带来更多无法辨别的虚假信息。
“我们承认技术在某些极端情况的两面性,但无论如何,AIGC和数字人产业的接受度这一次是彻底打开了”,数字人AIGC公司风平智能创始人林洪祥告诉AI蓝媒汇(ID:lanmeih001),“电影里中出现的“数字生命”概念和数字人相关技术,实际上早已于行业内落地,以产品和解决方案的形式,在教育、医疗及内容行业开展了商业化的应用。”
过去,行业只有一扇观望的窗,2023年,这里多了一道迎客的门。
度过商业化的临界点
“无形资产、成本优势、网络效应、转换成本,这四点共同构成了企业的‘护城河’……”
一次偶然的机会,在视频类自媒体负责文案编写的子阳,在视频号中刷到了一段关于“华为和现代企业管理”的分析。
视频中出现了一位西装革履的男士,结合自身经历分析论证了企业的护城河以及华为的激进文化,表情自然、语调生动。
子阳并未过多在意画面中的人物,而是和同事聊了聊文案逻辑和华为文化,但一位视频组成员的发言打破了办公室本来的平静,“这个视频应该是纯AI制作的,人物也是数字人建模。”
惊讶写在每一位同事的脸上。意外之余,子阳又重新翻看了一遍视频,“和真人没区别啊,完全看不出来,你要硬说的话……好像手有一丢丢不自然……”
在他的印象中,“数字人”这个概念还意味着二次元画风,眼前的这支视频呈现的图像和音效着实让内容部门惊叹,数字人已经做到这么“真”了吗?
“类似的案例还有很多,从去年下半年开始,陆陆续续有不少客户都直接找到我们谈合作,像长期使用数字人进行内容创作”,谈及视频领域的内容创作,风平智能创始人林洪祥告诉AI蓝媒汇,数字人视频早已在很多行业开始普及,“客户录制一段人物形象清晰的视频和声音素材发给技术团队,然后我们这边切片、数字化建模,再把人物模型套用到后台已经预训练数万小时数据模型中,就能合成一个外貌、声纹与你几乎完全一致,能以人类逻辑交流的数字人,相比于过去,技术已经成熟了很多。”
这个数字人能完成的工作,包括不仅限于:根据你的语言习惯,调用现有数据库与真人进行实时交流;根据素材及个人风格完成视频、文稿的内容创作;主持直播并回复直播间弹幕……
“去年算是整个AIGC行业商业化的临界点,熬了三四年,市场终于打开了。”
在风平智能团队内部,包括创始人林洪祥在内,研发人员对于AIGC技术路径始终坚定,但多年来训练模型的过程,却难言顺利,“像是炼丹”。
最开始,受限于初创公司在数据规模和现金流方面的压力,风平智能并没有足够资源去做类似于OpenAI训练ChatGPT那般“整合几乎是所有行业的数据”,而是在一开始就根据团队经历和已知的商业化需求,围绕保险和内容直播两个行业训练模型。
“起步阶段的数据和模型,实际上跟我上一个在保险行业的创业项目有很大关联”,林洪祥解释道“我们(风平智能)整合了当时已有的几乎全部行业相关内容,以便创建在保险行业这个垂直领域的知识图谱和数据结构。”
而数据,仅仅是第一步,如何让AI理解数据并赋予其人类的逻辑,才是将“数据模型”转化为“数字生命”的关键:从人物生产,再到内容演绎,并最终赋予AI以行业技能。
起步阶段做垂直行业项目的好处,在于其数据的集中性和可信度都远远高于流通在互联网的素材。
“本身客户的需求就非常垂直,给到的数据也集中而有效,便于进行结构化处理。加上团队多年的从业经历,让这个数据模型在起步阶段的训练实际上有迹可循。所以,在后期应用(生成内容)环节,对于信息的筛选效率和准确性也都非常高。”
不同于OpenAI所训练模型的泛用性,风平智能的选择更小众却也更务实。这种务实诚然大部分来自资源有限的被动选择,却也带来了一些优势生产内容的精准度。
“当时,很多由AI生产的内容已经能进入保险行业专业问答体系中,通过人工检测并在搜索引擎中前排展示,我们的模型算得上国内最早通过NLP(Natural Language Processing)测试、最早实现商用的大语言模型之一。”
而如今,越过商业化临界点的风平智能,已经将自身语言模型接入了金融、传媒以及心理咨询、叙事医学等诸多行业领域,蚂蚁保险和字节跳动金融板块的冷启动数据模型,同样有林洪祥团队的参与。
AI会取代人吗?
“你现在已经不可能成为21世纪最好的设计师了,努努力你还可以成为21世纪驾驭AI最好的设计师(笑)”
这是林洪祥和一位视觉设计师之间的对话。这位设计师困扰于AIGC内容的爆发,让从业者的创意显得有些匮乏。
诚然,不论是医疗、教育还是传媒、艺术行业,过去二百年的时间里,他们都有一个共同点需要人,需要人的决策和创造。
在过去很长一段时间里,“人工智能”输出的内容因缺乏逻辑、可信度存疑的,而无法被这些行业采纳,而如今,以上行业内早已存有大量AIGC的身影。
那么,AI会取代人吗?
从业者的回答是否定的如果你用得好,AI能同时成为工具和朋友,一个不会抱怨的工具人。
一个从肖像到知识结构、说话方式都几乎100%复刻的分身,意味着某个顶流主播可以出现在成百上千个直播间和用户高效交流,意味着一个专业领域的顶级医生可以长时间对有需求的患者进行辅助性的指导,意味着一个教师可以将现有的知识体系声情并茂地复刻到需要传播的任何一个课堂,“数字生命”最终实现了曾经的一个悖论解放人的同时,扩大人的生产力。
在从业者看来,过去很多人不理解、不接受数字人,很大程度上是认为它的可信度和传播效果都无法保证,但随着包括《流浪地球2》中数字生命和数字人还原技术的展现,近两年元宇宙风口、AIGC风口中产品的爆发,AI产业用结果验证了技术的可行。
林洪祥坦言,很长一段时间里,公司乃至行业发展的受制因素,都是资金和外界对于数字人产业的认知度的匮乏。
对于AI产业来说,烧钱是一个绕不开的话题,对大语言模型这类需要深度学习的神经网络更是如此。
“大家现在用了这么多AI,能直观看到各家模型之间是有很大差异度。之前提到了‘炼丹’这个概念,数据规模跟模型的迭代就是‘炼丹’过程。这个过程存在偶然性,但数据质量的好坏,实际上是造成这种差异度的关键要素。“数据本身也是钱多钱少,而钱多钱少,跟整合数据的质量,跟最终的成果都息息相关。”
据相关资料显示,风平智能在过去数年的研发成本已达数千万人民币的规模,随着语言模型训练量的扩大,未来几年的研发成本仍不会低于这个量级。
但令从业者欣喜的是,过去的一年,全球互联网共同见证了AIGC的崛起,无数人惊叹于AI强大的文字理解能力、图形处理能力,以及在顶级算力加持下的内容生成能力。一夜之间,AI成了太多领域的专家:写稿、作画,直播聊天,并偶有惊为天人的创意。
生产力方面的巨大跨度让业界惊诧而振奋,应运而生的是几何式增长的热度和需求。根据风平智能市场部门提供的数据,从去年下半年开始,每个月的客户量几乎都在以成倍的规模增长。
“2023前三个月,我们光参加AIGC的论坛就有16个,最新的一个客户需求是几千个数字人模型加上后续的长期运营,整体的收益相当可观。大家用到了产品并觉得好用之后,终于认可了这个行业、这项技术。”
这句“终于”的背后,潜藏着大量和林洪祥团队相似的推演和试错。
从早期任职于IBM的人工智能及大数据团队,到进入百度等互联网公司设计大数据算法的底层框架,林洪祥经历了国内AI大模型从0到到1的全过程。
而这类算法在十年前,还并不能主动生成任何内容,“大数据最早的应用,是互联网社区的内容审查。”
林洪祥在2012、13年的时候,参与了百度社区大数据中心的建设,当时外界普遍将人工智能定义为“底层大数据的基础软件”,很少有人会在意人工智能在创作领域的想象力和应用点,更不要说潜心构建大数据模型,并日复一日进行训练演算。
但林洪祥选择了“跳出来”在和多位业内人士,包括曾经在IBM共事的技术团队交流后,林洪祥选择了再次创业,寻求AI进一步发展的可能性。
“这种训练不确定性很大,我们其实是在赌,OpenAI也是。只不过人家背后站着微软这个大资本,我们就只能选择小众,尽量小心。”
2023年之前,除了金融和医疗等已经跑通的赛道外,风平智能也主动接触了一些泛内容行业,但大部分客户在谈过后,都觉得让AI去创作是‘天方夜谭’,觉得这个东西不现实。”
从业者眼中做加法的过程,困于空有概念,没有产品,“包括四小龙在内的很多公司往往是以项目制为主,如果有连续的项目能接手,那它一个阶段的营收才会比较稳定。但在这样的情况下,如果你要让它一年烧个5,000万美金,去训练像大模型这种方向存在不确定性的项目,他们内部预估的风险可能会比较大。”
在林洪祥看来,过去项目制的好处在于订单充足的情况下营收清晰稳定,但本质上却无法形成一个基础性的产品,一套基础性的技术。用项目制的形式一单一单跟着别人做,对自身技术积累的反馈非常有限。
“这是过去AI产业的一系列问题,而AIGC的好处在于,我每做一个项目,其实都能对现有模型是进行反哺,进行训练量的积累和可能的纠错,它的效率比原来做AI项目高很多。”
“过去的AI项目并没有太多所谓‘积累’,工程会占据很多时长,而工程几乎是没有核心技术积累的。AIGC带来了一种模型用的越多,效果越好,效果越好,适用面越广的良性循环,拥有基础架构的小公司有大量的机会参与到市场整体的建设中。
好在,从朗读式语音,到主播式语音,再到基于神经网络深度学习后的专家决策系统、图像和文章生成系统,这一系列技术的推演,来得还不算迟,“熬了几年做出产品,正巧赶上AIGC的风口。”
从业者成就的风口,将红利留给了坚持下来的人,林洪祥说的“正巧”,显然不是巧合。
随着疫情结束后自身平台+IP的影响力增幅,风平智能团队已在去年下半年两季度基本实现了盈亏平衡,对于下一个阶段的研发路径和市场需求,从市场部到技术岗都显得很乐观:“模型后续还会迭代,数字人产业现在仍在早期,很早很早。”
从业者的警惕和乐观
让计算机具有人性,是几代研究人员的期待和努力方向,但当今天的AI真正具备了人的思维逻辑之后,从业者却依然谨慎乐观。
毕竟,在他们看来,技术尚在成长期,行业方才行至商业化拐点之后的第一个路口:懂技术的团队,更能看清技术背后的可能性,和伴随的风险。
长久以来,AI产业从概念提出,到机器演算,再人机对话,前进的脚步始终蹒跚成果输出不稳定,应用途径更是昂贵且稀缺。
直到2022年AIGC产业横空出世、2023年ChatGPT震惊世人。外界惊讶地发现AI居然已经进化到了在某些领域比人类更高效且有创造力的水平,仿佛屏幕背后站着的不再是一串代码,而是一个拥有庞大数据库和顶级算力的“人”,一如电影中从几句话的交互,最终进化为复述三万位密码的数字生命“图丫丫”,和尽管已经离世,但依然出现在银幕中的吴孟达先生。
二进制和人类语言之间逻辑的不互通被打破,人们真正触碰到了属于AIGC的时代门扉一种具备能理解并服务于人,同时又在算力层面超越人的技术。
但作为长期参与神经网络深度学习的从业者,林洪祥深知技术发展之余善用AI的必要性和“人性”被反向利用的危害,“越有人性的AI,越有被扭曲的风险。
在他看来,一项技术越是具备开创性,越是具有跨时代意义,我们越应该提前布局“下一个时代的规则”。
作为风平智能的创始人,同时也是AI行业资深研发者,林洪祥经常出现于各类研讨会和AI公司内部交流会中,对于数字人产业兴起后,带来的一系列风险,他表示“行业监管未来会逐步跟上。”
“这两年(我)参加的讨论都会交流这些事情。作为从业者,科技向善是所有技术发展进步的大前提,落到我们这里就是做好后台加密、隐私保护,以参与者的身份推动监管完善。AI成为人之后,我们必须警惕AI背后的人。风平智能的使命是让每个人都拥有可信赖的AI朋友,内涵科技普惠及AI可信赖两层深意。”
尤其当AI参与到医疗等涉及隐私的行业,以及更大规模还原人(面部)肖像技术普及后,对于个人形象和个人信息被盗用的可能性绝不应被忽视。
“只有在规则内发展,才是对行业、对市场有好处的”,林洪祥表示,“AI的瞳孔永远清澈,从业者要小心的,是人性背后贪婪的眼睛。”