一个周五早上的九点整,韦小惜坐在电脑前,身体缩在黑色棉衣里。地处河南城乡结合部的办公室里很安静,只能听到点击鼠标的声音和饮水机偶尔咕噜冒泡的声音。
此时,房间里只剩下他的另一个同事吴文龙。
一张,两张,三张…不同人穿着同款安全服的照片从吴文龙眼前划过,他坐在电脑前,操控着鼠标,眼睛专注地盯着电脑屏幕上的照片。他正在进行照片筛选,不是人物正面照或背景复杂的统统删掉。筛选出来的照片,韦小惜再圈出目标,标记关键点,让计算机能看图识物。
他们正在进行单调乏味的贴标工作,却是教机器变“聪明”的第一步。
在数据标注行业,国内兼职或全职的有几十万人,多是以工作室、团队形式存在,少则十来人,多则上百人,贵州被称为标注小镇,青岛、宁夏也都建了标注基地。
韦小惜把自己所处的位置比作房地产行业里搬砖的人。和吴文龙一样,他们仿佛是人工智能产业链上最不起眼的尘埃。
千万次点击
随着鼠标箭头的拖动,黄色的直线沿着安全服的轮廓勾勒一圈,生成上百个节点。一张接着一张,重复同样的动作。吴文龙在为检查是否戴安全帽的人工智能做数据标注,训练机器人的识别能力,一些建筑公司有这样的需求。
这只是他标注过的众多类型中的一种,他记不清自己标注过多少种类的图片,令他印象深刻的是之前标注过排卵试纸,他听说有人还标注过粪便。
他们的老板韩锦皓在隔壁打电话,他那边不时传来催款、叹气的声音。到年底了,公司相对清闲一些。
韩锦皓今年31岁,是一个身材高大魁梧的年轻人,普通话里夹杂着河南口音。他的公司在河南商丘的西面,在居民楼里。门口没有贴任何表明那是家公司的标志,他的公司很少有来访者,偶尔会有朋友过来看看。公司在封闭式小区里,没有门禁卡无法进出,这让他感到不便。
韩锦皓公司的员工正在标注图片 澎湃新闻记者 袁璐 图
因为临近年末,员工相继离职。现在,他仅剩下两名员工,每天处理上千张图片。图片不一,难度不一,处理起来的速度也有快慢。韦小惜一天最多处理过3000张图片,算下来,他在每张图片上停留的平均时间为9.6秒。
做数据标注员之前,韦小惜卖过车,做过贷款,开过奶茶店,在一家工地上的办公室物资部工作过,替人家管材料。
面试前,韦小惜并不知道这是什么工作,他在网上看到数据标注员的工作简介,图“新鲜”就投了简历。
吴文龙今年22岁,在这家公司做数据标注工作已有半年,他每天要处理上千张各种各样的图片。但规则有时模棱两可,他需要自己判断。
他是2018年毕业的大学生,毕业前在当地一家互联网公司实习做网页设计。毕业后,他感到迷茫,没有目标,最后网投来到这家公司,走一步看一步。同学中几乎没有跟他同行的。
韦小惜和吴文龙面对面坐着,中间只隔着电脑,但他们很少交流。像雕塑一样每天坐在电脑前8小时,概述图片背景、前景和特定物品,所有这些都是根据需要人工智能的客户所述规格而定。
复杂算法与廉价劳力
老板韩锦皓清楚地知道,自己只是人工智能产业链最底层的工人,但这些工作必不可少。他的团队现在做的,主要是人工智能领域里的“门槛低、最基础的”数据采集工作——包括清洗(注:清洗指将采集到的数据转换为统一的标准格式,成为机器可读取的结构化数据)、分类、标注。
生活中常见的比如扫地机器人,它带着摄像头,几乎类似于人的视觉,监测房间里面所有的物品。标注完之后,它就很明确桌子腿、椅子腿、沙发腿、墙角,哪里能碰,哪里不能碰。
又比如自动驾驶,要让计算机识别“斑马线”、“红绿灯”、“人脸”,“其实就好像训练一只小狗,让它过马路的时候要走斑马线,要看得懂红绿灯标志,要记得住路上行人的相貌一样。”
而基础的人脸识别需要用到很复杂的算法。人的眼睛,眉毛、鼻子、嘴巴的形状都会用特征点进行标注。
提到人脸识别,韩锦皓立马想到了安防领域通过做人工智能识别的系统来抓逃犯。2018年,郑州的中悦万达广场安装了识别系统之后,一天抓到六名犯罪嫌疑人。“公安通过身份证上的人像已经进行了大量标注,嫌疑人出现后,通过人脸识别,把数据传输到公安系统。”
第一次进行标注后,机器人会学习。“整张图上没有空白的地方,墙,帽子,脸,车,路标,打上标签。”第二次标注相同的东西时,机器人就会有一定的识别能力,“就像教小孩学习算术,教他一加一等于二,二加二等于四,不需要无穷无尽地教下去,只要明白个中规律,就学会了算数。”
这份工作在吴文龙眼里是一个新的行业,虽然做的都是基础工作,但他喜欢这种“新事物”。
数据标注依赖于廉价的人工,机器变得智能在很多情况下都是由真人训练。
2017年7月,国务院印发《新一代人工智能发展规划》,其中包含三步走战略,第一步是到2020年人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。第二步到2025年人工智能核心产业规模超过4000亿元,带动相关产业规模超过5万亿元。第三步到2030年人工智能理论、技术与应用总体达到世界领先水平。
数据标注公司如雨后春笋般在全球各地涌现。韩锦皓印象中,数据标注这两年才火起来,并且源源不断有人加入,因为“成本低,只要有人、有电脑,稍微培训一下立马就可以开始做”。
韩锦皓说,北京这样的城市房租高,所以数据标注业务转移到三四线城市,价格已经压得很低。在河南郑州,一个数据标注员的工资在三四千左右,如果是在地租更便宜的城市,工资只有一两千。
意外的开始
韩锦皓做数据标注,是他生意路上的一次巧合。
他在黄河中间一个小岛上长大,那座岛过去几乎与世隔绝。小岛南边是洛阳,北边是济源,住着几百户人家,家家户户有船,他们大多是菜农。后来岛上建了小浪底水电站,人们纷纷搬离小岛。
大约是十五岁的时候,韩锦皓因为穷所以读完初中就辍学了。他和姐姐一起拉着家里的菜到批发市场卖,再把批发市场上的水果拉回村卖。那是他第一次做生意。
这样的日子持续了两年,韩锦皓决定到外面去碰运气。他去了舅舅所在的成都,在一家动物园里养海豹,一个月工资350块。
一年后,他不干了。家人希望他能学一门牢靠的手艺,以后好找工作。他就去学了电焊,当时洛阳高新区正在修建,他在那干了几天,把学费赚回来后,再没干过电焊。
接着他去了哥哥打工的苏州,一个电子厂,做诺基亚N95这款手机最后的包装工序和检验。
韩锦皓不甘心一直做流水线上的工人,三四个月后,他换到另一家电子厂,那里是做山寨手机的。“一块TCB板过去,光秃秃的,然后把所有电子元件装上,把一些屏幕、电池、按键、外科、喇叭接入系统,测试各项功能,组装、检查之后就卖出去了。”
那会儿是2008年,厂里有人开始卖手机,直接从生产线上拿手机,卖给隔壁厂里的人。拿货的价格是几百块,卖出去的价格八九百上千。韩锦皓手里没什么钱,市面上诺基亚、摩托罗拉正火,他觉得风险大,没敢做。
后来他干过网络销售,微信优化,微信营销,开发公众号,去过深圳,四川,兰州,北京。他经历了一次次风口,却又相继错失机会。
从2003年出门,韩锦皓在外晃晃荡荡跑了十年后,家人催婚,项目没进展,2015年,他回郑州先成立了一个公司,做免费wifi无线路由器,通过wifi引流打广告,但效果不好,他又改做信息流广告。
跌跌撞撞到了2017年,他给北京一家公司做广告。公司的老板以前是某知名互联网公司的高管,做得好好的,突然离职了,后来韩锦皓才知道,当时这家互联网公司在做无人汽车,需要大量数据标注团队,那时候这类团队比较少,这个老板就辞职改做标注了。
韩锦皓也就跟着改做标注了。虽然他在三年前曾去过北京的互联网大会,了解到AI、AR(注:AI指人工智能,AR指增强现实技术),但当时觉得这些离自己太遥远。
直到两年前的夏天,他每月花费三千元,租下一套120平米的民居,摆上两条长桌和十台电脑,做起了数据标注和采集样本的生意。
“人类智力任务”
2017年,韩锦皓刚组建团队时,并不顺利。很少有人知道数据标注员是干什么的,他招人只能在需求岗位上填“文员”。等招来人之后,他才跟人解释工作内容,接着进行培训。
第一批他招了十几个员工,都是年轻人,有没上过一天学的文盲,有患听说障碍的残障人士,有刚刚结束互联网技术学习的大学毕业生。他们很少有人受过良好教育,也并不觉得自己投身时下正兴盛的科技潮流中,甚至对人工智能一无所知。大部分来工作的人都是生计所迫,每月能领到三千多元的工资。
数据标注团队陆续到位,北京的公司发了任务给韩锦皓——主要标注内容包括行人和车辆,其中车辆分类为小轿车、中巴、大巴、手推车、自行车、三轮车、摩托车等,都要由近到远,拉框标明,不能有任何遗漏。
这是韩锦皓带领团队第一次做数据标注的业务。他们对规则不甚清楚,图片上一个十字路口密密麻麻一群车,但有些车辆,他们无法叫出名字,很难全部准确拉框标注。
做了一段时间后,对方觉得他们做的标注质量不好,老是出错。“无人车要上路,对标注的精确度要求高,机器人一旦学习了错误的数据,是很危险的。”
这反而让韩锦皓看到做标注的意义。他决定从简单的标注业务入手。他接的第二个业务是移动公司的客服语音标注,把听到的音频内容按照客户要求贴上标签,比如用户问及话费问题,机器可以迅速给到相应的回复。
前半年的项目,他基本都是和第三方公司合作。第三方公司从甲方公司接到标注的活,他的团队来做,项目多则收入三五万块。“目前市面上大多数公司都是这样的。”
后来接触多了,韩锦皓发现,人工智能辐射的领域很广,不管是无人车、无人超市,还是运营商、保险公司等,都会用到。
这意味着,他做的数据标注业务前景广阔。他做过无人超市的数据标注服务。无人超市的机器前期需要大量的训练,比如一罐饮料究竟是可口可乐还是王老吉,需要无数次、各种场景的训练,让机器学会自动识别人像,“这就需要大量数据标注工作”。
人像标注的节点 采访对象供图
做数据标注的生意,韩锦皓凭的是“兴趣”。家里没人懂他现在做的项目,他只说是做互联网的。
严格来说,他说自己所在的城市没有一家真正的人工智能企业。韩锦皓把数据标准归为小众行业,“再做20年也不一定有人知道,”不像阿里巴巴和百度等涉足人工智能的大公司,为人们所熟知。
这两年,韩锦皓做过人脸识别,手势标注,智能客服等等。最常见的比如某个淘宝店家对买家评论的人工智能回复。
他现在做的事,很像迈克斯·泰格马克笔下的欧米茄团队。欧米茄团队的第一个目标是亚马逊的MTurk(注:一个众包网络市场),它于2005年上线后,发展迅速,很快就聚集了成千上万来自全球各地的人。
欧米茄团队夜以继日地奏出了一支支“HIT”奏鸣曲——HIT指的是“人类智力任务”(Human Intelligence Tasks),范围十分广泛,从音频录制到图像分类和网页描述撰写,应有尽有,但他们有一个共同点:只要你完成得足够好,没人在乎你是不是人工智能。
欧米茄团队认为,只要他们能让一台超级智能机器——无论这个人多么聪明,这台机器能超越任何人的所有智力活动的机器,不断迭代的“自我完善”过程持续下去,那么最终,这台机器就会变得非常聪明,足以自学其他有用的人类技能。
但韩锦皓对此不以为然,“总有机器不能替代人类的工作。”他脸上带着自信,翘着二郎腿,坐在他办公室的一个角落。他无法说清人工智能在接下来的几十年里如何影响就业、法律和经济,但他肯定地说,人工智能将渗透各个领域。
人工智能照片识别教学的标准是使用ImageNet的图像,这是一个由斯坦福大学教授李飞飞创建的数万张图像的数据库。这个数据库依赖于亚马逊的MTurk,后者将劳动密集型工作外包,交给互联网用户去做,试图对这些图片进行分类、打上标签,为计算机提供学习用的“题库”。
但是,随着世界各地的企业越来越多地转向从无人驾驶汽车到医疗诊断等行业的人工智能应用,“题库”被证明是不够用的。这也正是韩锦皓认为有潜力的地方。
“别人看不到的工作”
韩锦皓的一个朋友周俊凯,在距离他一百六十多公里外的县城,创办了一个数据标注的公司。
周俊凯的公司坐落在河南省商丘市民权县中部,东沙河在这里划出了一条新月形弧线,他的办公室是一栋三层高的民宅,房子后面是一片庄稼地。这座县城人口约三十万。在这里,似乎没有人关心人工智能。
周俊凯从贸易学院毕业后一直在找工作,但四处碰壁。后来找到一份汽车修理工的学徒工作,但干了很短时间就辞职了,那份工一天要工作十四个小时。
周俊凯今年19岁,他是在平顶山西部的小镇上看到一些数据标注的工厂,做了一段时间贴标员后,萌生了开店的想法。他和表兄弟一起拿出家里的二十多万积蓄,购买了几十台电脑,租下办公空间。
2018年的秋初,他注册了现在的公司。县城唯一的数据标注公司开业了。在更小的地方,周俊凯的工作更难被理解。
招来的二十个员工都是他的老乡或朋友。一窝人聚在一个房间,面前摆个电脑,干着别人不知道的事情,亲戚以为他干的是传销。“周围的人根本不知道这和人工智能相关的。”
为了取得农民父母的信任,他抱着电脑坐他们旁边,手把手在他们面前演示,“让他们看我这个东西是怎么赚钱的。”父母面露惊讶,他们从未见过这样坐着“瞎比划”就能赚钱的工作。
他把营业执照展示出来,下面的人都拿到了工资,人们才慢慢相信他做的事情合法。
现在有朋友问起,周俊凯一般不会提人工智能,只说是做数据的。“你说的越高级越神秘,大家就越会觉得这东西和骗人似的。”他说不清楚他做的数据贴标和人工智能到底有什么关系,这不是他在意的,只隐约感觉现在从事的这个行业很有潜力。
韩锦皓的工作在老家人眼里是“不务正业”,但他慢慢喜欢上这份“别人看不到的工作”。他像很多创业者一样,把时间看得最重,每餐花费最少的时间,然后回办公室和图片打交道。
以前在别人眼里,他没学历没背景,做的事情都异想天开,但他爱折腾。公司他一个人撑着,也不觉得累。有两年他起早贪黑,女朋友天天见不到他人,他觉得每天有探索不完的事情。
韩锦皓误打误撞做起了这个时代最前沿的工作,但他知道自己只是站在人工智能领域的门口,想要往前走,脚却不知道从哪里迈。他的目标是成为河南一家真正的人工智能公司,不再只是做数据标注。
今年,韩锦皓雄心勃勃投入了这个行业,他不想只做一名数据标注工人,正在开发一款数据标注的软件工具,打算引入算法到数据标注工作上,采用人工智能方式做一部分数据标注工作,再人工进行处理。
想得更远些,他希望有天能生产出人工智能的产品。
韩锦皓说,在河南,自己算是最早盯上数据标注业务的人,他管理着一个近3000人的群,群里全是做数据标注的人。他的办公桌上堆放着一叠合同,都是主动找上门的甲方公司。
他已经不愁没活儿。有个客户之前做完一批业务,又换了一批继续找他做,希望他在春节前做完。
那天突然停了电,韩锦皓让两个员工先回家。吴文龙和韦小惜拎着东西离开办公室一个小时后,电来了。韩锦皓又电话让他们回来继续干活,客户那边有要求,年前必须要全部标注完。
再次赶回办公室后,房子里没有暖气,韦小惜裹紧棉衣,接了杯热水捧在手里,坐回电脑前,屏幕上,还是刚才的图片,不同的人,不同的场景,穿着相似的安全服,他一只手不停点击鼠标,做回了“搬砖工”。