人工智能靠什么走向大众

AI1年前 (2023)发布 aixure

72 0 0

导读：作者：张少霆（商汤科技研究院副院长）随着人脸识别、语音识别和自动驾驶日益成为关注焦点，人工智能（AI）与社会、人类生活融合程度正在快速演进。其实早在1956年，人工智能这个术语就被正式提出。但在有限且昂贵的计算能力、已有计算方法存在缺陷、缺乏…

作者：张少霆（商汤科技研究院副院长）

随着人脸识别、语音识别和自动驾驶日益成为关注焦点，人工智能（AI）与社会、人类生活融合程度正在快速演进。

其实早在1956年，人工智能这个“术语”就被正式提出。但在有限且昂贵的计算能力、已有计算方法存在缺陷、缺乏数据量这些无法克服的基础性障碍面前，“模拟人类大脑”显得非常遥远。此后，一直到20世纪80年代初，随着一类名为“专家系统”的AI程序开始为全世界的公司所采用，人工智能才兴起了第二次热潮。各国开始投入大量资金，例如日本经济产业省雄心勃勃旨在打造“第五代计算机”的研究计划，目标是制造出能够与人对话、翻译语言、解释图像，并且能像人一样推理的机器。80年代后期，产业界对人工智能系统投入巨大但只产生有限的应用产生质疑，人工智能的泡沫逐渐破裂，投入大幅消减，人工智能再一次步入寒冬。

那么，人工智能到底将靠什么走向大众？笔者认为，视觉AI技术将是发展方向。

对人类而言，70%到80%的信息获取来自视觉。对人工智能来说，视觉AI也被视为目前最具应用价值的AI技术。它能够让机器具备“从识人知物到辨识万物”的能力，从而看懂、理解这个世界，帮助我们在生产和工作中，提升处理信息的效率。

简单来说，视觉AI就是研究如何让机器会“看”，即用摄影机和电脑代替人眼对图像进行特征提取和分析，并由此训练模型对新的图像数据进行检测、识别等任务，建立能够从图像或者多模态数据中获取“信息”的人工智能系统。

源于深度学习的突破，视觉AI的识别能力突飞猛进，2012年的两个轰动事件，更被视为视觉AI的发展拐点。当时，由多伦多大学Geoffrey Hinton领导的团队，在一项名为ImageNet的图像识别竞赛中，利用深度学习和GPU的强大计算能力，将错误率降低了10%，震惊学术界，因为之前这项错误率每年只会降低1%—2%。

同年，“谷歌大脑之父”吴恩达带领团队，利用10亿参数的神经网络，在没有任何先验知识的情况下，仅仅通过观看无标注的YouTube的视频，创造了一套猫脸识别系统——从海量照片里自动识别出猫脸。

视觉AI迅速成为人工智能领域最重量级的研究领域，源自于其在安防、医疗、无人驾驶等多个领域的应用前景。

例如，在安防领域，视觉AI技术可进行人群分析、逃犯追捕，可通过城市中成千上万条路的摄像头对目标人群进行锁定与筛查，并做到实时告警，助力安防效率的提升；在手机领域，AI可提供刷脸解锁、刷脸支付等更加安全和便捷的体验，还可自动为面部美颜省去后期修图的时间；在自动驾驶领域，AI技术可以通过摄像头获取的图像，对车体的周围环境进行识别和分析，辅助做出精准的路径规划。

在众多的视觉AI应用场景中，AI医学图像分析是近年来热度极高的一个细分领域。这主要得益于医院信息数字化建设的不断提速，以医学影像为核心的大数据不断丰富，为AI在医疗领域的发展提供了充足的养料。与此同时，优质医疗资源的稀缺和分配不均也不断催生着社会对人工智能的需求。

当下AI+医疗的红火，对推动这个行业的发展起到了不可磨灭的作用，还有丰富的应用场景和海量的机会等待挖掘，例如个性化医疗、可穿戴智能医疗设备的实时监测与分析等。

放眼未来，更多的应用前景都将贴上视觉AI的标签。比如，人脸识别技术有望在更多的物联网终端设备上应用，让安全便捷的身份认证无处不在，提升生活体验；在AI+工业领域，工业机器人、物流机器人将更多替代传统劳动力；在AI+文化领域，基于AI的增强现实技术，可以将古代文物、古代场景生动复原得以假乱真；在AI+教育领域，利用视觉技术实现学生的注意力管理、跟踪学生的知识点掌握，实现真正的因材施教。

当然，AI掀起的新一轮产业浪潮不过短短几年，技术上需要持续不断的突破创新，行业需要不断的深耕和挖掘，大众也需要对其给予足够的耐心。

# AI