作者:李子月
编辑:汝晴
36氪获悉,人工智能数据解决方案提供商杭州曼孚科技(MindFlow)近日宣布完成千万元级天使轮融资。本轮融资由立元创投领投,老股东伽利略资本持续加码,春泥资本担任独家财务顾问。本轮资金将主要用于数据中台搭建、市场营销推广与商务拓展。
曼孚科技2018年成立于杭州,以搭建智能化数据中台及数据应用服务作为核心发展方向,提供包括图像和视频识别、语音识别、语义理解等领域的基础数据服务。核心团队中拥有人工智能领域多位专家和学者,以及谷歌阿里网易等科技行业人才。
曼孚科技旗下主要产品服务包括SaaS级的数据处理平台,AI数据中台服务,基础数据服务(数据采集、数据清洗、数据标注)等。其中数据中台解决方案主要由三部分构成:REAP模块负责非结构化数据的采集、存储与预处理; SEED模块负责将非结构化数据转化为可供使用的结构化数据; BAKE模块在接收到结构化数据后,会对AI模型进行训练、测试、验证,然后输出至应用层,形成一个自动化的、可持续性迭代的闭环循环。
曼孚科技AI数据中台解决方案 图片来源:采访供图
曼孚科技主要客户分布于自动驾驶、智慧安防、人脸识别、新零售、运营商等领域,包括阿里巴巴、字节跳动、百度、科大讯飞、旷视、好未来、吉利汽车、网易、中国移动、YIWISE.AI和DMAI等,代表项目包括:阿里巴巴无人驾驶数据标注、字节跳动人像语义分割数据标注、网易有道在线教育数据标注、百度3D面具人像采集等。
如果将算法比作火箭,则算力是引擎,数据是燃料,共同推动人工智能技术持续高速增长。当下,实现人工智能的方式主要以机器学习,尤其是深度学习为主。在实际应用中,深度学习算法多采用有监督学习模式,对于标注数据有着强依赖性需求。曼孚科技表示,目前人工智能企业每年在数据服务领域的投入,约占企业总支出的10%-30%,国内数据服务市场规模已超100亿美元,且未来数年的年化增长率远超50%。
与快速增长的市场需求相比,是行业落后的数据生产力。2015年已存在一些数据标注开源工具。2017年AI行业爆发,原有功能简陋的开源工具已无法满足数据需求的急速上涨。然而行业前期研发周期长,进入壁垒较高,目前市场尚未饱和,供不应求。
此外,数据生产行业长久存在的技术解决方案过于初级、生产方式极其落后、管理方式非常原始以及制造流程完全黑盒等顽疾,已无法满足AI企业对于源数据处理精度的要求。
针对以上问题,曼孚科技可提供图像识别、视频识别、语音识别、语义理解等领域的基础数据服务,场景覆盖更全面,解决方案更垂直。
曼孚科技表示,其SEED数据服务平台采用人机融合模式,可将综合效率提升10倍以上,AI辅助筛查可使精准度达到99.99%以上。实现方式包括,在标注软件中设置快捷键提高人工标注效率;用项目中一部分数据训练出一个AI模型,将此模型插入项目中做校验,辅助剩余数据标注等。
(曼孚科技SEED数据服务平台 图片来源:采访供图)
曼孚科技指出,管理是目前行业的痛点之一,却往往被忽视。数据生产环节繁琐,在项目管理、数据集管理和人员管理上均需要耗费大量精力。因此曼孚科技建立了自己的项目管理平台,提高了效率和产出能力。然而单一的数据标注工具和项目管理平台连通性较差,从数据采集、将数据放入数仓、在数仓中清洗、数据标注,再到把数据标注的结果导入训练平台,整个链路较为割裂,会导致数据处理周期变长,最终影响到AI模型迭代速度。曼孚科技提供完整的数据中台服务解决方案,可以有效提高数据处理速度,并将成本降低30%。
曼孚科技指出,数据服务市场标准不完善、成本溢价严重,供应链体系生态建立将起到积极作用。此外,AI企业对于源数据处理精度的要求更高,每一个细分领域的数据服务要求不尽相同,因此服务程序标准化至关重要,然而数据服务企业优劣难以评判。倘若可以将数据服务标准量化统一,将能极大提升行业的对接效率,并在未来带动上百万相关人员实现就业。除此之外,对数据标注员的需求也将带来更多就业。曼孚科技指出,目前全国约有30-40万全职标注员,预计未来将达到200-300万。
国际上同类公司包括2015年上市的行业龙头Appen;在2D领域功能丰富的LabelBox;起步较早且在3D方向优势明显的ScaleAI,其商业模式为主流的整包项目制;2019年6月被Uber收购的MightyAI等。曼孚科技表示,国内数据服务行业尚处于初期发展阶段,同类公司包括百度和在语音领域极具优势的海天瑞声等等,诸如ScaleAI这样估值超过10亿美元的同类型独角兽企业尚未出现。