经济观察报 记者 郑晨烨每当丈夫上班、儿子返校,家住武汉的全职妈妈吴海燕便会坐到电脑前开始一天的工作,在一个被称为“freespace鱼眼语义分割”的项目中进行标注工作。
之所以叫鱼眼语义分割,是因为吴海燕标注的图片全都来源于车载鱼眼摄像头所录视频。这些图片的场景大多在停车场中,吴海燕需要做的是利用点阵工具,将立柱、栅栏、机动车、行人等物体的接地点标出并链接,形成一块蓝色的封闭多边形区域,这块区域就是freespace(可行驶区域)。
当吴海燕将一段视频的300帧图像全部标注好,这些数据集便可用于训练智能汽车的自动驾驶算法,帮助AI(人工智能)理解在停车场哪些区域可以行驶、哪些区域可以泊车以及哪些区域不能触碰。
“现在看到新闻里很火的Chat-GPT都有种亲切感,好像是自己手把手教出来的。”2月15日,吴海燕告诉经济观察报。
这样一份可以被形容为AI“老师”的工作,在《国家职业分类大典(2022年版)》中被称为数据标注员,即通过对图片、语音、文本等数据进行标注和加工,为AI算法学习及优化提供样本。
像吴海燕这样的兼职数据标注员,仅在其工作的平台就有近两万人,他们的职业背景和社会身份各异,既有吴海燕这样的家庭主妇,也有大城市的基层白领,以及部分残障人士。
这些数据标注员正处在火热AI赛道的最底层,用日复一日的枯燥劳动,为如今大放异彩的各类AI应用提供重要的数据养料,他们所在的行业也被统称为“人工智能基础数据服务”。
根据IDC发布的数据,近5年中国AI基础数据服务市场规模年复合增长率达到47%,预期2025年将突破120亿元,占到中国人工智能市场规模总额约10%。
“数据标注员”
2月15日,经济观察报记者在兼职猫平台报名了一份数据标注员的兼职,当晚,项目负责人赵强杰电话询问了记者的基本情况,随后将记者拉至一个名为“试标”的微信群里。
“新进群的同学先看群公告,再看聊天记录里的视频,看完有想做(数据标注)的,私聊找我试标,只差三个人了。”
这是一份时长36分钟的标注培训视频,示范了如何在一帧车载鱼眼摄像头录制的视频中,通过将立柱、机动车、行人等障碍物的接地点连接到一块,从而精准标注出一块蓝色区域。
“标注人员需以封闭多边形的形式标出视频每一帧画面中障碍物接地点freespace的边界。”与教学视频配套的另一份培训文档上有对该项目的概述。
“freespace简单说就是可行驶区域,常见于泊车场景的数据标注,通过将栅栏、墙面等障碍物阻隔的近端区域,未被机动车占用的可泊车位等边界的像素坐标信息标注后,用于帮助AI定义可行驶区域,可以实现自动泊车、一键呼叫等功能。”上海一家智能硬件企业的算法工程师冯易向经济观察报解释。
赵强杰所说的试标,便是兼职数据标注员的面试,通过标注“实战”来测试应聘者的工作能力,在大致看完了标注项目的教学视频后,记者私聊了赵强杰,表达了想要试标的意愿,随后得到一个测试账号。
记者登录一个名为数加加众包的数据标注平台,并在其中打开了赵强杰指定的测试项目。在观看教学视频之初,这份标注工作的难度并不高,只不过是按照既定规则将画面中可行驶区域标注出来。
但在实际操作过程中,记者还是遇到了不少难题,例如画面中远处的立柱被遮挡,无法准确标出边界与接地点,抑或是画面远处过于模糊,无法区分标注物体所属类型。
用了将近10分钟,记者勉强完成了第一帧图像的标注,过程中,赵强杰多次催促了记者。
“你确定你看过视频了吗?看过视频是不可能还标成这样的,要像你这样标,AI学完车就直接撞柱子上了。”在收到了试标注的图像后,赵强杰向记者反溃
他还告诉记者,通常一段鱼眼视频会有20帧图像需要标注,熟练的数据标注员一天需要标200-300帧画面,像记者这样的标注速度无法胜任兼职工作。
在记者进行试标的同时,一位在深圳上班的白领董程也加入了赵强杰的群。
他稍早前在社交平台上看到有关兼职数据标注员的介绍信息,随后被“下班兼职、工资日结、日薪300、就像连连看”等关键词吸引,在私聊发布信息的博主后,获得了赵强杰的联系方式并进群。
同记者一样,董程也在随后的试标中被赵强杰淘汰,记者对比了董程标注的截图与赵强杰提供的正确标注截图,发现除了个别点位的标注不同外,大致区域范围其实并没有太大差异。
“自动驾驶类的数据标注需求是很严的,不精细的数据甲方是不会验收的,你看起来可能就差一点点,但是人人都差一点点,累积起来给到AI训练那边可能就会是天大的错误,如果出现无效训练,轻则浪费一些成本,重则要出人命的。”面对记者的疑问,赵强杰说。
深圳一家AI企业的产品经理何茂对记者表示,在算力、算法和数据构成AI应用的三大要素中,训练的准备数据可以算得上是最重要环节,谷歌大脑创始人吴恩达就曾指出:“AI研究80%的工作应该放在数据准备上,确保数据质量是最重要的工作;业界如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。”
何茂告诉记者,当前主流的机器学习算法为有监督学习,即让机器通过标签化的数据进行学习训练,“就像人类一样,小时候有人告诉你什么是汽车,什么是飞机,教你学会了鉴别,这就叫有监督学习”。
而在有监督学习中,通过对大量原始语音、视频、文本及图片数据进行加工处理,从而使机器能够识别和学习这些信息的数据标注工作,便成了机器学习顺利进行的关键环节。“对经过标注的数据集进行模型训练,可以让AI在未来再次接收到对应数据时,能够进行简单分类并输出正确判断,例如freespace数据标注,便能够让AI在泊车场景下快速判断可行驶区域与可停泊车位,所以数据标注就像是AI的启蒙老师,教给不同场景下的AI最基础的鉴别和分类功能。”何茂解释。
冯易指出,对于有监督学习算法来说,训练数据的需求空间还很大,所以基础数据服务对模型算法发挥着关键支撑作用。
“ѵ