“女博士”张晴晴的硬核AI创业经:做数据难于做芯片

人物报道1年前 (2023)发布 aixure
75 0 0
导读:科技行者 人们普遍认为,AI科学家每天的工作是构建高大上的模型,但其实绝大多数时间都用在了数据上,他们也想用好的数据帮助建模,但结果却是像围城一样这是很多AI科学家共同的难题。 作者|周雅 配图|扈佃杰 在高校扎堆的北京北三环黄金地段,海淀文教产…

科技行者

人们普遍认为,AI科学家每天的工作是构建高大上的模型,但其实绝大多数时间都用在了数据上,他们也想用好的数据帮助建模,但结果却是像围城一样这是很多AI科学家共同的难题。

作者|周雅

配图|扈佃杰

在高校扎堆的北京北三环黄金地段,海淀文教产业园其实不那么打眼儿,但却擅长收揽“金种子”入驻,创业公司Magic Data就是其中的一位了。

仅看名字,不难看出Magic Data的业务:数据!这家公司成立至今不到7年,从不到10人扩张到100余人规模,客户遍布全球200家头部大厂,5年内营业收入突破了一个小目标(亿元),成为AI语音数据服务圈的第一梯队……在这其中,有一个人功不可没。

她就是Magic Data创始人兼CEO张晴晴。

张晴晴身上有很多社会化的标签:女博士、创业先锋。抛开这些,在与她1个半小时的交谈中,我更多能明显感受到她对于事业的激情与执着,因此你什么问题都能问,她什么也都能接的祝后来我才发现,这本来就是她的日常之一,在个人视频号里经常分享各种观点:关于数据、关于AI、关于ChatGPT、创业&科研、ToB服务、管理、IT女性,等等,科普性极强。

所以你很容易在AI的圈子里,看到张晴晴的分享。就像你很难在AI的赛道里,不讨论数据一样因为说到底,张晴晴的成长,也伴随着中国人工智能产业的成长。

时间调回到约20年前,人工智能非常不火,不火到学这个专业的大学生可能一毕业就面临失业,甚至大学里没有真正教AI的老师,还得从通信专业里“借”老师,张晴晴打趣道:“人工智能的前身可能是通信”。可却在那时,张晴晴对语音识别萌生了兴趣。

大三那年,她偶然选修了一门课叫做“语音数字信号处理”,学习人的发音机理,再把发音过程通过信号建模出来,做成语音合成“我觉得这特别有趣。”她说。

后来在保研过程中,张晴晴一心想继续学语音信号处理,恰巧看到中科院在招生,就毫不犹豫报了名。最终结果是,她在北邮通信学院600多个报名的学生中脱颖而出,以第7名的成绩被保送到中科院声学研究所,师从中科院语言声学与内容理解重点实验室教授颜永红。

再之后,张晴晴成为实验室中最年轻的副高,并且获得了2014年度中科院杰出科技成就奖,又在法国国家实验室担任语音信号处理博士后。总之,她就是那种“别人家的孩子”。

自此在这二十年间,这位女博士长期专注在同一件事:如何更好地构建模型,让机器更好地理解人话。直到,她发现了一个致命性问题。

读博期间,张晴晴的论文研究的是“中国人说英语”,为此她要拿到200个真人的语音,只为让机器理解中国人说英语的特点。结果,这期间她大量的精力都花在了找人说英语上,甚至走在街上,也会下意识向路人问一句:“您能帮我录句话吗?”而最终,机器仅花费了1天就给出了第一个实验结果,可她却足足花了300天用来收集人声。

张晴晴不禁感慨,人们普遍认为,AI科学家每天的工作是构建高大上的模型,但其实绝大多数时间都用在了数据上,他们也想用好的数据帮助建模,但结果却是像围城一样这是很多AI科学家共同的难题。

那么,有没有可能创造一个庞大的数据集,让所有的AI科学家和公司都能够用来训练模型呢?这一疑问浮现在张晴晴的脑中。

直到2016年,人工智能迎来了再次爆发,张晴晴观察到一些互联网巨头对于数据的需求越来越旺盛,于是从中科院离职,正式在北京创办Magic Data。

如果要用一句话概述公司业务。张晴晴介绍,Magic Data的定位是一家多模态的人工智能数据解决方案公司,做的是多模态数据,提供的是数据的解决方案。七年来,Magic Data积累了超过60种语言、超过15万小时的对话式AI训练数据集,覆盖智慧金融、智慧出行、智能社交、智能家居和智能终端等五大行业。

回想一路走来,让张晴晴印象深刻的故事有很多,但最让她触动的一件事,是来自于团队

2017年,公司成立还不足一年,为了节约成本,张晴晴只能把公司租在北京海淀区的一座商住两用楼里。在那段时间,北京的几场大火波及了消防隐患小区,都需要被清查整治。

一个周日下午,消防员筛查到了这座大楼,告知大楼的消防不合规,必须立刻撤走。这意味着,张晴晴需要在几个小时内转移几十位员工的办公物品,怎么搬?搬去哪?面对突如其来的状况,她一时不知所措:“我当时很尴尬,也不知道怎么跟员工开口,觉得自己好像挺不靠谱的。”

但她很快晃过神来:得马上告诉大家,集结团队的力量。而让满心愧疚的张晴晴欣慰的是,员工没有一位抱怨,一晚上搞定了搬迁。第二天一早,所有人准时出现在新办公室里,开始了新一天的办公。

而在那个兵荒马乱的时刻,公司还正在忙着A轮融资,也正因为整个团队的凝聚力,Magic Data在那一周里成功拿到了A轮。

自那以后,张晴晴悟出一个道理:“创业是在和平年代里对人最有挑战的一种生活方式,在创业过程中感受到的喜怒哀乐是几辈子的喜怒哀乐,但反过来对于人的自我迭代也是极快的。创业是个非常有趣的过程。”

01

ChatGPT好比数据工厂

但是做数据难于做芯片

科技行者:ChatGPT与人交互起来对答如流,感觉它的大脑在飞速运转,背后肯定是有海量数据在支撑吧?

张晴晴:没错,数据对ChatGPT的作用实在是太大了。ChatGPT起初的数据量很多,几乎都是来自于网络用户的原生数据,但这些数据不能直接用,要经过分类清洗。

反过来说,你的处理速度、精度、效率都会直接影响到ChatGPT本身的质量,所以本质上它是一个工业级的生产过程,是个极具挑战的过程。

挑战有两点。首先,你需要把很多人组织起来,在一个生产系统里完成事情。其次,如果我们已经构建了一个基础的ChatGPT,剩下的就要开始做一个围绕ChatGPT而生成的垂直领域模型,这里产生一个问题,这种垂直数据怎么获取?

垂类数据的获取通常都非常难,特别是医疗、金融等数据,网上没有现成的。所以这就衍生了另外一个热门技术,叫AIGC(人工智能自动生成内容),它为什么同步火了,就是因为现实生活中的数据获取太困难了,就想着用AI去生成类似的数据去用于训练。

AIGC其实也叫做合成数据,合成数据中间有一个非常重要的分支,叫做simulation data(模拟数据),对于企业来讲,模拟数据可以很好地实现数据场景拟合、快速交付的需求,同时数据的合规性也能得到保证。

6年前, Magic Data开始做模拟数据,实话讲这在整个人工智能的数据领域,前瞻性是走得比较靠前的。

我们做的模拟数据,叫做off the shelf data(自有数据),通过模拟出各种场景,比如通话场景、车载场景、家居场景等,对模拟场景中的数据进行采集和标注,打包成分行业、分领域的垂类数据。这些数据可以快速交付企业和科研院所,助力AI研发。

科技行者:那么做模拟数据的难点是什么?

张晴晴:做数据要求很专业,我曾经跟同事讲,做数据的专业度有点像是做芯片,都是一个long term(长周期)的事情。但现在我越来越觉得,做数据的难度甚至高于历史上生产芯片的过程,因为芯片是可以被结构化的。

但是数据的差异化太大了,不同的行业、场景、甚至是不同的形态数据,里面的参数和差异度都是极大的,同时,数据要用于人工智能建模,机器在建模的过程中如何消化吸收这些数据,也是难点。

对于我们“数据人”来讲,一定要先理解,才能生产出好的数据,所以虽然看上去我是一直在做数据,但是我每做一个数据,都要换位思考,思考数据在使用过程中会发生什么,这里就有大量专业的“know how”在里面。

第一点就是专业度。数据越做到后面,意味着我们要去处理数据的精度和复杂度就越高,需要的专业人士在里扎根的时间就越长。所以客观上,我也不认为任何一家数据公司可以把所有的数据都做了,每家公司可以生根在擅长的某个方向,做深做透就很了不起了。

第二点就是规模化。数据不可能永远留在实验室里,未来都还是要面临工业级生产的问题。就像做芯片,做3纳米的一颗芯片不难,难的是批量生产出一堆3纳米芯片,可能也就那么几家公司能搞出来。

数据也一样,需要系统和人一起耦合去不断迭代,机器在这个过程中处理哪些环节,如果机器出现异常,人应该给予什么information,让机器再去回溃整套流程是一个不断打磨的过程,也是一个不断求最优解的过程,但是你又永恒在求最优解,所以做数据是一个long term(长周期),需要你be patient(有耐心),需要你keep going(坚持不懈)。总之这对做数据的企业也是综合性考量,要持续投入研发,不断迭代,不断筑高壁垒,最后沉淀下来,才能越来越好。

02

真正理解数据的人,就一小撮人

他们很痛苦

科技行者:Magic Data成长一年后,就有了千万级的收入。很多创业公司技术虽好,难的是获得收入。你们是如何破冰的?

张晴晴:虚头巴脑的我就不讲了,客观说,任何一家企业刚起步,要想运转起来,一定靠的是信任度,它决定了客户是否信任你,愿意跟你合作。同时要有交付质量,这是后续合作的基矗

我们公司发展6年间,一些主要客户的复购几乎没有断过,这反过来也证明我们是一家非常踏实的企业,从创立第一天起,我们的核心诉求就是,希望从根本上改变数据的生产力。

只要是能在生产力上面有帮助到数据的生产的,不管是从机器的研发效率、营销、供应链任何环节,只要能优化的,就应该不遗余力去做,对于整个AI的赛道来讲,降本增效一定能推动发展。

科技行者:咱们第一个客户是谁?

张晴晴:我有点不记得了,但应该是中国企业,虽然我们的客户全球都有,但最初做人工智能的基本都是现在的大厂。

科技行者:大概在两年前,你们公司做了很多开源项目,还有一个开源社区,感觉也是在给数据的生产力蓄力。

张晴晴:真正理解数据价值的人,有时候就像围城一样,在那一小撮人里面,他们也很痛苦,很想用好的数据帮助到自己的建模,但是他们又很难鉴别,到底什么是好数据。

我们做了很多好数据,凝结了专家团队的know-how,我希望告诉大家,至少在人机交互的数据领域,Magic Data是专业的,我们把一些典型的数据开源,也是希望跟其他企业创造更多价值。

科技行者:有什么细节可以证明,咱们的数据就是好数据吗?

张晴晴:“好”可以理解成相对概念。

比如在人机交互场景里,终极形态是完全自然的交流,就像人和人对话一样,是非常放松、想到哪说到哪的状态。所以机器的训练目标一定是越逼近于人类越好,我们公司长期一直在用“人类对话数据”去训练机器。

但是哪怕在两年前,大家都还没有意识到这个问题,导致过去我们跟机器交流时,会觉得死板又生硬,因为传统的数据用的是书面用语,训练出来的机器当然死板,直到现在,大家才意识到了问题所在。

科技行者:就好比学书本英语很多年却无法跟外国人交流一样。说到对话式数据,又要提到ChatGPT了,Magic Data能为这类大模型做什么?

张晴晴:两个方面。一是基础的「大模型」,对数据的清洗和分类是ChatGPT需要的,这部分我们有高效的数据生产工具,叫做Annotator智能化标注平台,它凝结了我们过去十几年做数据和人工智能的经验,如果用这套系统去处理数据,可以降本增效。

二是基于大模型做「垂类模型」。这个过程就一定会涉及到模拟数据,我们会专门设定很多指标,在这些指标下面去采集相应的数据,并且做后期打标签的动作,如果企业直接用我们的模拟数据,去解决某些应用场景,也可以降本增效。

科技行者:前面还提到了,传统训练的数据是非常机械式的,而咱们用的都是人性化数据,那么咱们的数据获取方法是怎样的?

张晴晴:过去,互联网公司有很多用户,它会基于这些数据去使用,当然这存在隐私问题。

我们的方式是去中心化,反其道而行之,我们不是去拿用户的数据,而是有一个众包的工作平台,大家到我的平台来,贡献他个人的一些数据,然后再获取相应的报酬。比如请一个人来给我做一段表演,或者请他来念一段古诗小说,这种情况下,他产生的数据有价值,他也会拿到相应的报酬,这恰好是一种去中心化的状态。

科技行者:无论是ChatGPT也好,还是AIGC也好,都是围绕AI来谈的,那么你怎么理解未来 AI与人类社会发展的关系?

张晴晴:要从阶段性来看。在未来几十年的周期里,人工智能会很大程度上帮助人类的工作生活,比如当老人或小孩摔倒了,智能监控会预警,这些机器肯定是有利于社会安全稳定发展的;而从更长期的角度来看,当人工智能越变越好,智能系统越来越多,大家会思考人类会不会部分被取代?我觉得不是没有可能,我们总说奇点,可能一旦突破奇点,变化一触即发。

03

躺平or卷?

我更追求“被需要的价值”

科技行者:创业维艰都说烂了,你每天思考最多的问题是什么?

张晴晴:思考的问题也跟不同时期有关。早期总在想,怎么把一件事情去落地做好。

创业到第三年,考虑战略、定位、擅长做的事。

到第四五年,也就是从去年开始,除了以上这些东西,我更多的开始关注组织的问题,一个企业的成功必定是一个组织形态的成功。

科技行者:“创业是在和平年代里对人最有挑战的一种生活方式”,你这话说的很好,不过既然是和平年代,有人可能就一直想躺平,为什么你要这么卷?

张晴晴:躺平和卷,其实是个哲学话题,我时不时也会想一些哲学问题,比如每个人在社会上追求的到底是什么?

我也跟公司的小伙伴讲,大家为什么要去做这些事,说到底是为了两件事。眼巴前的是为了收益(钱),这个大家都会考虑,但是如果一个人只考虑钱和收益,除非这个人真的是立刻要饿死,否则是不可信的,那就意味着你的精神世界已经整个崩塌了。

所以除了钱之外,每个人一定会追寻一种“被需要的价值”,当一个人被需要,他会迸发出一种极大的发自内心的力量,这种力量会让这个人觉得非常幸福,这也是所谓的“情绪价值”。

上面说的两个追求,在每个人那儿的占比有所不同,而于我而言,我更需要“社会价值”。

最理想的状态是,你对自己的评价和社会对你的评价是几乎对等的,其实两者一旦发生谁高谁低,你都会觉得,要么别人亏欠你,要么你好像占了别人便宜,就是这种状态。

科技行者:对,说回到躺平和卷的两个维度,我们或许不用去界定到底是要“躺平”还是要“卷”,可能卷累了就躺,躺累了再卷,大家其实不用只选择一种状态。

沿着这个话题,我们再来做一个预测。如果3~5年后,公司还能达到一个什么样的高度,你会比较满意?

张晴晴:可能两三年前,你问我这个问题,我会习惯性回答一句:如果企业可以上市,我应该很满意。

但是现在看来,要达到满意的目标有两者。第一者是,客户们觉得Magic Data这家公司能够给它们带去价值,这对于人工智能数据的生产力也会带去更好的推动。

第二者是,Magic Data公司里共事的小伙伴们可以因为这家企业而生活得更体面,并且他们的社会价值感会更高。

如果这两件事情同时满足,我就觉得这家企业让我很满意。

科技行者:这么看来,感觉你是一个很有奉献精神的人,因为你个人的成就感来自于给他人带去的价值感。

张晴晴:这么说是合理的,因为创始人其实是公司集体的化身,关键是自己内部的一个逻辑自洽和对于外界来讲是一个价值呈现。

科技行者:那么做成一家创业公司,要具备哪些重要的品质?

张晴晴:最重要的就两点,学习力和复盘力,这是对于创始人和创始团队都特别重要的能力。然后第三点不是我们可以完全掌控的,就是“看天吃饭”。

复盘能力对于很多人都是极大冲突的,首先你得先否定自己,然后再去调整成一个好状态,自己否定自己可能绝大多数人就做不到。但如果能做到的话,不管是创业者,还是非创业者,他的上升速度都会非常快的。

科技行者:总结而言是,不断学习让人进步,不断复盘让人自省,其他的交给时运。

张晴晴:对。

科技行者:在人工智能领域,有很多女性科学家和企业家,那么如果有女性学子也想投身于这个领域,你有什么建议?

张晴晴:我觉得无论是女性还是男性,都存在一个突破自己的艰巨过程。

女性早期可能会不自信,比如自己认为是这样的,还会习惯性去问别人“是这样吗”。另外女性存在一些天然色彩,比如习惯减少冲突、或是要让周围人感觉舒适等,这里有好的方面,就看怎么去用它。在创业这件事上,有时候反倒需要“独裁”,独裁这个词不好听,但也代表着对于自己所要干的事情更加笃定。你敢于去做决策,并且坚定不移朝着这个方向走下去。

男性要突破的,就是承认自己曾经错过而重新再来的过程。所以,创业对男性女性都不容易,不过新时代有个词叫做“女性经济”,对于女性创业或女性出现在商界,大家的包容度好像真的变高很多了。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...