AI的风潮,不仅促使很多新公司的加入,也让正在发展中的科技公司找到了新的方向。对于这些公司来说,拥抱新技术的速度越快,就越有可能抓住新的机遇,从而避免被其他公司实现弯道超车。
2015年成立的世优科技,是一家聚焦于数字人和虚拟内容的数字技术公司。在过去几年,其核心产品和竞争力一直拥有着嫁接不同技术的可能性。
在被称为“元宇宙元年”的2021年,数字人领域迎来了新的机会,相关公司也因此获得了资本的高度关注。作为国内最早一批研发实时数字人的技术团队,世优科技在去年连续完成了两轮过亿元融资,又在如今AI浪潮来临时推出了新的产品。
自2004年起就开始参与数字人相关技术研发,世优科技的创始人兼CEO纪智辉在这近二十年间见过太多次新技术来临的时刻。或许也是因为这样,他对这波AI浪潮的兴奋感并没有其他年轻创业者那么强烈,用一个词来总结,可能是“谨慎乐观”。
对于AIGC的尝试,也仍然是以原本业务为圆心进行的外环拓展,他告诉毒毒眸:“确切地说,世优不太算是AI公司,我们本质还是一个数字人公司。”
更大的不同点,在于对机会的判断。或许更加原生的AI创业者在这波浪潮中,对机会的潜能判断上不封顶,但纪智辉仍然在行业既有格局中思考着AI的机会:大厂还是占据着绝对的优势地位,创业公司可能在细分垂直、项目服务市场上会有更多的机会,而TO C平台型的机会在原本的主导者将更有优势。
我们与纪智辉聊了聊AI浪潮来临后,世优科技所进行的转向,包括他们新推出的AI数字人产品世优BOTA,他对这波创业风潮的看法,和他所认为的、创业者们的机会。
以下是对谈实录:
数字人能代替人工吗?
毒眸:作为一家数字人公司,我们和AI的结合点在哪里?
纪智辉:数字人和元宇宙底层还是需要有AI去加持和助力,数字人也不能只是靠人来驱动,未来AI驱动会是大趋势,所以AI的发展跟我们的关系也比较密切。本质上我们公司的核心逻辑是围绕数字人的应用场景来展开,AI+数字人属于数字人的应用场景之一。
毒眸:可以介绍一下前几天发布的新产品“世优BOTA”的研发过程吗?
纪智辉:因为AI范围很大,我们更关注的是让数字人用AI来驱动,以前像这种AI更多的是传统的NLP(自然语言处理,Natural Language Processing),就像小爱音箱,底层逻辑是输入文本输出文本。
传统NLP比较傻,比较机械,大部分问题它是回答不上来的,也没有逻辑和条理,更多是通过类关键词的方式做解答,当然它有一定的语义理解能力,但很轻度。
基本上原来传统NLP的厂商会比较难受,需要自我革命升级,而且这种优势是碾压式的,所有以前做的代码和训练工作都废掉了。
ChatGPT出来之后,我们都觉得这是让数字人“变聪明”的机会,于是大概在半年前就接入了,然后发现一个问题,它虽然很聪明,但不可控,比如会胡编乱造,还说得很正式,我们公司实际控制人是马斯克都敢说,不能适配我们想做的商业化落地场景。
后来我们就研究了Open AI的开源框架和机制,在上面做了一些二次开发修改,加了一些逻辑,形成了现在的世优BOTA。我们给它的定位是AI数字员工,分两部分,一部分是AI专有GPT能力,另一部分是数字人的形象表现和交互能力。
毒眸:在研发过程中,有遇到哪些挑战?
纪智辉:太聪明了,不好控制。ChatGPT的智商肯定是够的,如果你要喂给它特定的数据,比如公司介绍,理论上它学了就会,但实际上不是这样,因为它聪明的基础是来自于过去在全球范围内学到的数据,它已经认识很多东西,再喂它新的,它就会自动联想和泛化。边界拆分很困难,要么就会特别保守,要么就开始乱说。
数据在喂进去的时候,也需要做一些梳理。因为人在阅读的时候,不会太讲究主谓宾关系,就像中国人写诗一样,讲究的是对称。这个时候就得人工做一些标注,让AI能够像理解英语一样理解中文的意思。我们也在借助ChatCPT来帮我们训练一部分数据,再加一些人工干预。
毒眸:在训练数据的过程中,人工干预的比例大概是多少?
纪智辉:要看原始的资料跟素材是什么状态,因为客户提供的素材,什么类型都有,像网页、表格这些,只能人工去理解,再变成文本输入。
毒眸:训练一个企业专属的AI模型,大概需要多长时间?
纪智辉:一般公司都比较快,基本上就是找一个人梳理,客户也会协助,可能半天、一天基本上就可以搞定。
毒眸:目前看来“世优BOTA”承担的还是人工客服的工作,但理论上讲,如果真的有数字员工,应用的场景应该会更多吧?
纪智辉:理论上是这样。客服是大家目前在用、最容易使用的一个场景。另外像是前台、展厅展会的讲解和接待,还有一些依托短视频和直播的销售场景、品牌宣传等等,这些场景是目前可以落地的。BOTA主要是解决文本输入输出精准可控、以及在特定领域精确回答的问题。
毒眸:相当于BOTA是我们正在探索的“AI+数字人”的一个方向,其他方向我们有考虑过吗?
纪智辉:也有,比如针对TO C方向的个人数字助理。其实BOTA的未来就是数字永生,我们会先从B端(也就是行业客户)去切入,再向个人做延展。因为能够训练企业数据的话,也能够训练个人数据,先复刻个人的形象和声音,再进行情绪、情感、人格和个人经历知识能力方面的训练,最终实现个人的数字分身。
毒眸:目前从产品端的角度来说,BOTA跟真人相比有哪些还需要继续改进的部分?
纪智辉:现在反应速度比较慢。像我们现在聊天,可能我说一半你可以打断我,我也可以打断你,因为我听懂了,但是AI不会,你必须得让他完整表达,很难去打断。而且它的思考和运算还有延迟的,它也看不到我们的表情、情绪和身体动作。
毒眸:所以BOTA现在投入使用后,也还是需要一定的人力辅助?
纪智辉:还是要看应用场景。线上主播、展厅展馆的介绍员、线上客服这些工作,AI基本都能独立完成。但是很多时候还是需要人工介入,很激动着急的投诉行为,就不能再用AI和他沟通了。
毒眸:未来产品迭代的方向是什么?
纪智辉:第一肯定是从文本向多模态做延展;第二,我们也在试图对底层能力做一些研究,比如性格、情感和情绪控制,但这个方向风险很大,因为大厂也在做类似的事情,未来可能会被碾压。所以我们还是基于自身优势,把数字人和商业应用场景做结合,让它能完成更多的工作。
毒眸:流程类的工作会更早地被替代,内容相对不太固定的工作会晚一些被替代,是吗?
纪智辉:其实还得看不同公司的情况。从每个行业来看,有的公司会慢一点,他不着急,也有公司会激进一点。但是这个趋势是挡不住的,如果拒绝AI的话,就会逐渐失去竞争力。
毒眸:目前接触下来,哪种类型的公司会更敏感一点?更愿意接受新的变化?
纪智辉:从接受度来讲,整体大家还是都愿意接受的,但是最后愿不愿意买单就不一定了。也有些公司倾向于先观望。
毒眸:那么就大的趋势来看,目前AI和数字人结合还有哪些应用的机会和方向?
纪智辉:那想象空间就很大了。从我个人来看,这次的AI有点类似“革命性的进展”,会对很多行业产生很大的冲击。
用我们自己的工作来举例,现在我们设计数字人,可以直接用原始照片和描述性的词汇,用AI生成一些初版,给客户挑选一个方向后,我们再做细调,这个过程比原来快很多,很多人也就因此被替换掉了。
这个过程和BOTA的逻辑不太一样,是一种多维度的替换。因为大部分人在做工作的时候,都是去理解需求,再输出结果,而当AI同时具备理解能力和处理能力时,只要把输入和输出的工具对接起来,就完全可以代替人类。而且随着社会的发展,这种替换会越来越容易和普遍。
混乱、危险但迷人的创业机会
毒眸:我们最近跟一些创作者聊天,感觉AI的方向有很多创业机会,很多人都在尝试,你有在关注新的工作或者新产品吗?
纪智辉:有,最近市场比较混乱,大家都蠢蠢欲动又不敢动,因为风险很大,但是其他的地方都没有出口了,所以大家都想做。综合来讲,创业还是挺难的,但是机会又很多,到底该做什么不该做什么,还不好说,而且很多公司不一定能搭上边儿。
毒眸:因为世优很早就在研究技术相关的领域,包括数字人跟AI的结合其实也是现在很多人的创业方向,会比其他人更有机会和优势吗?
纪智辉:这里面也涉及到一些问题。从业务聚焦的角度来讲,应该只做一个点,但是我们又跨出来了,又做了一个小模型的能力。小模型的能力也有不同的定位,如果被标准化,就变成了标准能力,另一种就是不能被标准化,必须得配套服务,这个部分大厂就很难拉平,因为除了开源框架之外,还有一部分是私有数据和训练,这是服务性质比较重的。
用数字人来举例,如果是拍个照生成的话,就属于标准化。但我们现在做的是偏定制化的数字人,这个方向大厂不一定愿意做,因为能效很低,每一个数字人都要做半人工的调校。大厂可能更愿意在普适性、通用性的层面做训练,所以在细分垂直领域我们可能会跑得快一点。
所以创业其实取决于定位选择。新进来的创业者们怎么给自己定位?是跟大厂竞争,还是在已经有优势的地方再去创造一个新产品?或者依托于抖音、快手等已有平台,利用AI做工具输出一些内容,当然这个是没有未来的,只是趁着热点薅一波流量。
毒眸:相当于大厂是比较倾向于做通用模型的,我们这类公司更倾向于做私有模型?
纪智辉:对,因为历史是相似的。就像电商,最先做起来的肯定是淘宝的模式,谁都不会先做拼多多和京东。因为当市场足够大的时候,肯定是从最赚钱的、规模最大的、最有普适性的时长开始切,切到最后大家发现太乱了,因为所有人都在里面,你就变得没有特点。所以就开始出现拼多多、京东、抖音电商这些细分垂类。
毒眸:我们未来也还是沿着小模型、定制化的方向发展是吗?
纪智辉:对,因为我们更多是做大行业品牌跟大B端的业务,对于定制和服务的要求比较高一点。不过我们也挺焦虑的,因为好多事情看得还不那么清楚,也没法给出准确的判断。你知道它会发生,但是不知道什么时候会发生,也不知道什么时候介入合适。
毒眸:现在很多创业者更倾向于TO B的商业模式,也是这个原因吗?
纪智辉:对,因为TO C的领域就像其他传统行业一样,大厂已经形成了自己的格局,人才、资源这些东西都已经分完了。产品又好,人又多,流量也有,而且你收1块钱,它可以不要钱,你不要钱,它可以补贴你10块钱,打不过。
毒眸:即便现在有AI这个风口,做C端产品还是跟大厂竞争。
纪智辉:对,这种可以被标准化、市场规模足够大的产品,对小的创业公司来讲,不是说完全没有机会,也有,但是特别特别渺茫,C的事情就是千军万马过独木桥,基本上只能给大平台打工,这是事实。
毒眸:你现在的心情跟当时元宇宙特别火的时候心情有所不同吗?
纪智辉:元宇宙是一个大的方向和概念,那个东西出现的时候,大家是不焦虑的,甚至很兴奋,因为感觉发现了一个新的蓝海,新的世界,我们可以去建设它。现在是发现好像不太需要我们建设了,当然这里又出现了很多机会,所以会比较纠结。
毒眸:世优之前也有一些游戏客户,在你看来,AI会给游戏行业带来多大的影响?
纪智辉:他们应该已经开始用AIGC去辅助游戏的设计和脚本的创意策划了,还有一些模型资产的制作生成,以及游戏里面一部分的NPC跟玩家之间的对话也比原来更丰富了。
毒眸:目前还不足以成为普遍现象对吧?
纪智辉:可能再过几年,大家会更习惯于沉浸在另一个虚拟世界里,会对交互性、沉浸式的体验有更多需求,但现在跟AI聊天还属于小众文化,很难对某个行业有颠覆性的影响。
毒眸:之前腾讯的副总裁孙忠怀说,他在2017年的一次演讲提到,如果人工智能要达到人的智力水平至少还需要100年,结果现在6年就完成了。
纪智辉:智力水平是一方面,但好多问题并不是智商能解决的,要真正做商业化落地,让AI产生应用价值,需要一系列的流程才能够完成的,AI自己只是解决了一小部分的问题,很多时候还需要情商、资源和过程衔接,这些都得靠人来完成。
所以目前AI只能是一个工具,等未来它迭代到能够连接自主意识,能够思考,并且连上了生产制造设备,这个时候可能会影响比较大。
毒眸:之前每次有新的技术出现时,有的公司会迅速all in,但是有一些风口是过得很快的,所以他们会因此而陷入很被动的局面,你判断AI会是一个可持续的、有前景的创业方向吗?
纪智辉:说实在我还没有想得特别明白,今年市场比较乱,到底是2B还是2C,借助这个工具能够达到什么样的水平,都不好说。但是综合来讲,是属于比较容易能够落地的。像是之前的元宇宙,那种沉浸式和体验感,目前的移动端还实现不了,有一部分营销在里面。
但AI的确是实实在在地把人力减下来了,还可以提升生产力。作为创业风口,好像也不会过得那么快,至少TO B的市场也足够大,所以还是有得做的。
毒眸:感觉你对AI的看法还比较冷静,因为AI迭代的速度好像比大家想得要快,很多人对此抱有很大的期待。
纪智辉:是的,但是它再快也得有人帮它去做落地嘛,人跟不上也不行。