同盾科技合伙人、人工智能研究院院长李晓林教授
尽管已经离开讲台,李晓林身上仍留着些许象牙塔内的痕迹。
之前,他是学界精英,佛罗里达大学终身教授;现在,他是同盾科技人工智能研究院的院长。平时与人交谈时,他语言温和,但一旦涉及专业问题时,立即进入学者气常
在谈及知识联邦相关话题时,这种转变尤为明显。
这是他带领研究院伙伴们提出的理论体系,希望一种更安全的方式,利用好现有数据,搭建一个开放的智能大脑,最终推动人工智能3.0时代的到来。
打破数据孤岛
上世纪80年代,中国人工智能专家姚期智曾提出过“百万富翁”假设:两个百万富翁在街头相遇,他们想知道谁更有钱,但是出于隐私,又不想让对方知道自己到底拥有多少财富。
姚期智提出用“多方安全计算”方式来解决这一问题。如今的人工智能领域,正面临类似的困境,人工智能的发展进步,离不开大数据,但大家对数据边界越发重视,又不愿数据离开本地。
在李晓林教授看来,这是AI 2.0时代必须要解决的困境。他认为,我们当下经历的人工智能热潮,兴起于21世纪第二个十年初期,属于AI 2.0时代,依托于深度学习理论。
AI 2.0的快速发展,主要依靠三个因素:算法、算力和大数据。深度学习提供算法,CPU和GPU提供算力,信息社会则储存和提供足够的数据。
李晓林举例,谷歌的AlphaGo之所以能实现快速进化,便在于它一共学习了3000万盘已有的棋局,自己跟自己又下了3000万盘。
这种依靠海量数据训练的人工智能模式,经过初期野蛮发展后,正面临无数据可用的困境。
原来主要来自两个方面,首先是数据不足,拥有海量数据的往往只有少数行业,大多数领域的数据往往有限,或者数据质量较差。其次则是“数据孤岛”和数据安全使得数据共享越发困难。数据在不同公司间,甚至同一家公司内部,都难以实现无障碍流动。
而数据带来的隐私暴露或数据泄露,使得加强保护数据安全和隐私保护,成为各国政府的共同选择。
2018年5月25日,欧盟《通用数据保护条例》(GDPR)正式生效,这个堪称目前世界范围内最严格的用户数据保护条款,允许用户对自己数据拥有完全自主的权利。而美国和中国正在制定类似的隐私和安全法案。
这些现象都预示着,AI 2.0时代,似乎即将因为数据孤岛与数据安全,陷入双重困境。在同盾科技所在的金融科技领域,这一问题尤为重要。银行等金融机构,迫切想要提高风控水平,却又对数据安全极端看重,甚至将其作为立身之本。
2019年春天,李晓林加盟同盾科技后,出任合伙人、人工智能研究院院长,试图通过“知识联邦”技术,来解决这一问题。
当年冬天的网易未来大会上,同盾首次提出知识联邦概念,它不是单一技术方法,而是一套层次化技术框架体系:将散落于不同机构或个人的数据联合起来,转换成有价值的知识,并在联合过程中采用安全协议保护数据隐私。
这一理论提出后发展迅速,已经成长为国内联邦学习五大代表流派之一。
搭建数字技术生态
2017年,为保障数据交换时的信息安全,保护个人隐私,谷歌公司的科学家在一篇文章里首次提出联邦学习概念。理论提出后不久,国内各互联网公司纷纷搭建团队,投入相关研究。
李晓林说,硅谷的竞争速度更像是古代战场:你来一剑,我捅一刀,大家排兵布阵慢慢打。而在中国,“基本是赤膊角斗,相当激烈”。
根据国内媒体统计,目前联邦学习在国内已经形成“五大流派”,分别是微众银行主打的联邦学习,蚂蚁金服主攻的共享智能,平安科技的联邦智能,京东数科开展的异步联邦学习研究,以及同盾科技推出的知识联邦理论体系。
要在多方竞争中占据一席之地,无疑需要具备独特优势。李晓林指出,知识联邦比联邦学习的范畴更大、更系统,更有层次,“联邦学习是知识联邦的一个子集。”
知识联邦作为一套技术框架体系,与联邦学习、区块链、隐私计算、安全多方计算等其它技术领域都紧密相关。这些单一技术,在知识联邦的不同层面各自发挥作用,共同服务于数据“可用不可见”的大目标。
同盾发布的知识联邦白皮书显示,知识联邦具有三大优势:第一是全样本触达。联邦后机构间的数据,虽然各自为所有者控制,由于可以触达更多的数据,其性能甚至会超越维度有限数据的中心化聚集方式。
第二是数据不动模型动。联邦后的原始数据保留在本地,计算和学习也发生在本地,中心节点仅对参与方模型知识进行安全的聚集。弱中心化模式达成了效率和安全之间的平衡,尤其适合在强监管行业应用。对银行等金融机构来说,知识联邦的应用前景尤为广阔。
第三是知识也可以安全的共享融合。比如参与方通过NLP构建本地的知识图谱和各种网络节点的关系,再通过知识联邦来构建更完整的虚拟图谱,这样既能帮助识别欺诈团伙,又能提升企业征信的风控模型。人工的知识也可以融入其中(human in the loop),自主自适应的构建和融合多源知识,提炼出最有效的洞见来做智能分析与决策。
李晓林说:“在知识联邦的模式下,模型训练时每个银行和金融机构,各自的数据不需对外输出,甚至连模型的参数都不用给到对方,只需要将模型梯度的变化加密后在密文空间里安全的聚合。这样攻击者不能反推出源数据。”
基于知识联邦理论体系,同盾科技推出了工业级应用产品智邦平台(iBond),通过建立相应的任务联盟,解决不同应用场景需求。
在2020年10月举办的全球人工智能大会智能金融高峰论坛上,同盾联合浙江大学、复旦大学、百度大数据实验室、360集团、平安科技、等学界业界等多家顶尖机构成立“知识联邦产学研联盟”,旨在实现数据安全前提下,共同构建优质数字技术生态。
李晓林认为,按照目前人工智能发展态势,2040年前后,人工智能将步入3.0时代,除数据、算力、算法三要素之外,知识要素将成为第四要素。
开放智能大脑浮出水面
2020年11月,同盾人工智能研究院发布知识联邦技术体系下的数据安全交换(FLEX)协议,并于12月将其开源。该协议中包含一系列的约定,只要遵守这些约定,参与方就可以安全地加入到联邦,无需担心数据隐私会有泄漏风险,全面实现数据可用不可见。
协议背后,藏着李晓林和同盾对未来的野心。在李晓林看来,未来肯定不会只有知识联邦一个联邦平台存在。
行业需要一套完整的联邦数据安全交换标准,让各个参与方在选择使用联邦平台时有规可依,只要遵循相应标准,不同体系之间同样可以实现数据交换,知识互通。
一旦参与机构(数据提供者)足够多,联邦规模足够大,数据多样性就有保障,也就会有更多机构(数据使用者)愿意来使用联邦服务,也会有更多科技型机构(模型和应用开发者)来提供丰富的算法、模型和应用。
届时,知识联邦可以充分发挥平台作用,对参与机构提供的数据,以及科技机构提供的模型和应用进行评估,将数据作为生产资料的价值发挥到最大。
李晓林将其称之为电商式的平台,参与方在数据可用不可见的安全环境中,进行数据、模型应用的交换,甚至可以在区块链等技术的保障下进行自由交易。而知识联邦作为平台方,可以对参与方贡献出的数据和模型评分。
良性循环就此建立,李晓林说,知识联邦的应用范围,也将不再局限于某一个行业,而是有可能成为贯穿各行各业的开放的智能大脑。
上世纪90年代,李晓林在浙大读书时,人工智能尚是冷门专业。机器学习课堂上只有五六个学生,图书馆里的资料大多是过期的油印本。如今的机器学习课堂,500人的教室常常坐满,课上提出理论,课后甚至可以立刻做出样品,一个学期的作业就可以做出自动驾驶的原型,行业应用不断创新。
这一切都让李晓林觉得,人工智能的下一个时代或许加速到来,在这其中,必然将有知识联邦的身影。