8月7日,澎湃新闻记者探访了百度位于山西省太原市的人工智能基础数据产业基地,该基地是全国范围内人员和产值规模最大的单体数据标注基地,入驻数据标注企业35家,有超过2000名的AI(人工智能)数据标注师,支持无人驾驶、语音识别、人脸识别、地图数据等多种数据标注场景。
按照百度的计划,未来5年,百度还将培养数据采集、标注专业人员5万人。
百度(山西)人工智能基础数据产业基地。
“七八年前,我们是通过线上众包的方式,让AI数据标注师来做一些比较简单的任务,但随着人工智能的发展,应用场景越来越多,任务难度越来越高,再加上对数据安全、隐私、质量和效率的要求,百度决定建立一个人工智能基础数据产业基地。”百度(山西)人工智能基础数据产业基地负责人尉赤告诉澎湃新闻记者,基地一方面为百度自身的人工智能发展提供服务,另一方面可以向合作伙伴输出基地的数据能力和一整套的解决方案。
据了解,百度在2011年自建了数据采标团队,支持内部人工智能业务的发展。2018年9月,百度与山西省转型综合改革示范区达成合作,共同打造数据标注基地。目前,百度已经帮助山西从全国各地引入35家数据标注企业,通过导入百度自有的数据标注业务,为人员提供业务培训,帮助标注企业实现营业收入过亿元。而百度与山西数据标注基地的合作模式,未来还将拓展到更多省市,提供更多的AI就业岗位。
AI数据标注师,被称为人工智能背后的人。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录,数据采集和标注是人工智能训练师的主要任务之一。他们的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。
在基地一间间的办公室中,每个电脑前都坐着一名AI数据标注师,他们将根据各自分配的任务对图像、语音、视频、文本进行标注。比如,对于戴口罩的人脸图像,数据标注师会对人脸的眉毛、眼镜、颧骨等人脸关键点进行精准的标注,标注的特征点越多,AI就越能精确地识别戴口罩场景下的人脸,让人们在不摘口罩的情况下也能实现精确的体温测量,或是通过人脸闸机。
“要教会AI,首先要把知识转化成它能消化和吸收的‘语言’,你可以将数据想象成AI的燃料,人类对采集回来的原始数据进行加工,标注的过程就可以提取出一些数据信息。比如,在采集大量的人脸数据后,AI数据标注师会对人像进行标注,提取特征,将特征‘喂’给人工智能模型,那么模型算法相当于总结了之前人工标注出的信息,并找出通用规律,那这个人工智能模型就具备了人脑才有的认知和判断能力。”尉赤说。
据悉,AI数据标注师技术门槛并不高,经过一定的培训就能上岗,招工人群范围广泛。在基地,大专以上学历的数据标注师占比超过80%,一些中专或高中学历的人员也可胜任这项工作。
在探访中,基地AI数据标注师李宇龙告诉澎湃新闻记者,他入行做的第一个项目是车道线的标注。“比如,对车辆所行驶的车道两侧的线进行编号,包括识别这条线是实线还是虚线。刚开始不知道这项工作到底运用到什么地方,后来才知道是自动驾驶。”李宇龙说,他所做的2D/3D融合标注可助力自动驾驶模型的训练,帮助车辆实现视觉和雷达的感知,主要应用于自动驾驶场景的训练落地。
另一位AI数据标注师郭梅则向记者介绍,她原本就职于山西的传统矿业单位,一开始每天只能标注两三百张图片,现在提升到每天能完成1300多张,收入高于当地平均收入水平。图片框选是数据标注师的工作之一,它可助力图像识别模型训练,用于框选图片中的识别主体目标,常见于对人脸、人体、障碍物、红绿灯的框选,可应用于智能驾驶、智能安防、智能设备的场景落地。
对于为何要在未来5年培养5万名AI数据标注师,尉赤向澎湃新闻记者表示,数据服务领域与人工智能的发展息息相关。“这是个高速发展的行业,5年培养5万人并不算多,我们的线上众包注册用户有将近2000万人,目前每个月在线上为我们提供服务的人将近5万人。如果按照行业增长速度来看的话,培养5万人还不一定够。”尉赤向澎湃新闻记者介绍。
对于如何保障数据安全,尉赤说:“这也是百度要建设基地的原因,在基地,每个房间都有24小时视频监控,上岗之前进行人脸打卡,数据加密,作业期间若涉及数据敏感项目,会要求数据标注师们将手机放在固定的地方,而线上的数据标注师则是在处理一些敏感性不高的数据。”