同盾李晓林：解决时代困境，知识将成为AI3.0的“第四要素”

企业新闻2年前 (2023)发布 aixure

81 0 0

导读：同盾科技合伙人、人工智能研究院院长李晓林教授尽管已经离开讲台，李晓林身上仍留着些许象牙塔内的痕迹。之前，他是学界精英，佛罗里达大学终身教授；现在，他是同盾科技人工智能研究院的院长。平时与人交谈时，他语言温和，但一旦涉及专业问题时，立即进…

同盾科技合伙人、人工智能研究院院长李晓林教授

尽管已经离开讲台，李晓林身上仍留着些许象牙塔内的痕迹。

之前，他是学界精英，佛罗里达大学终身教授；现在，他是同盾科技人工智能研究院的院长。平时与人交谈时，他语言温和，但一旦涉及专业问题时，立即进入学者气常

在谈及知识联邦相关话题时，这种转变尤为明显。

这是他带领研究院伙伴们提出的理论体系，希望一种更安全的方式，利用好现有数据，搭建一个开放的智能大脑，最终推动人工智能3.0时代的到来。

打破数据孤岛

上世纪80年代，中国人工智能专家姚期智曾提出过“百万富翁”假设：两个百万富翁在街头相遇，他们想知道谁更有钱，但是出于隐私，又不想让对方知道自己到底拥有多少财富。

姚期智提出用“多方安全计算”方式来解决这一问题。如今的人工智能领域，正面临类似的困境，人工智能的发展进步，离不开大数据，但大家对数据边界越发重视，又不愿数据离开本地。

在李晓林教授看来，这是AI 2.0时代必须要解决的困境。他认为，我们当下经历的人工智能热潮，兴起于21世纪第二个十年初期，属于AI 2.0时代，依托于深度学习理论。

AI 2.0的快速发展，主要依靠三个因素：算法、算力和大数据。深度学习提供算法，CPU和GPU提供算力，信息社会则储存和提供足够的数据。

李晓林举例，谷歌的AlphaGo之所以能实现快速进化，便在于它一共学习了3000万盘已有的棋局，自己跟自己又下了3000万盘。

这种依靠海量数据训练的人工智能模式，经过初期野蛮发展后，正面临无数据可用的困境。

原来主要来自两个方面，首先是数据不足，拥有海量数据的往往只有少数行业，大多数领域的数据往往有限，或者数据质量较差。其次则是“数据孤岛”和数据安全使得数据共享越发困难。数据在不同公司间，甚至同一家公司内部，都难以实现无障碍流动。

而数据带来的隐私暴露或数据泄露，使得加强保护数据安全和隐私保护，成为各国政府的共同选择。

2018年5月25日，欧盟《通用数据保护条例》（GDPR）正式生效，这个堪称目前世界范围内最严格的用户数据保护条款，允许用户对自己数据拥有完全自主的权利。而美国和中国正在制定类似的隐私和安全法案。

这些现象都预示着，AI 2.0时代，似乎即将因为数据孤岛与数据安全，陷入双重困境。在同盾科技所在的金融科技领域，这一问题尤为重要。银行等金融机构，迫切想要提高风控水平，却又对数据安全极端看重，甚至将其作为立身之本。

2019年春天，李晓林加盟同盾科技后，出任合伙人、人工智能研究院院长，试图通过“知识联邦”技术，来解决这一问题。

当年冬天的网易未来大会上，同盾首次提出知识联邦概念，它不是单一技术方法，而是一套层次化技术框架体系：将散落于不同机构或个人的数据联合起来，转换成有价值的知识，并在联合过程中采用安全协议保护数据隐私。

这一理论提出后发展迅速，已经成长为国内联邦学习五大代表流派之一。

搭建数字技术生态

2017年，为保障数据交换时的信息安全，保护个人隐私，谷歌公司的科学家在一篇文章里首次提出联邦学习概念。理论提出后不久，国内各互联网公司纷纷搭建团队，投入相关研究。

李晓林说，硅谷的竞争速度更像是古代战场：你来一剑，我捅一刀，大家排兵布阵慢慢打。而在中国，“基本是赤膊角斗，相当激烈”。

根据国内媒体统计，目前联邦学习在国内已经形成“五大流派”，分别是微众银行主打的联邦学习，蚂蚁金服主攻的共享智能，平安科技的联邦智能，京东数科开展的异步联邦学习研究，以及同盾科技推出的知识联邦理论体系。

要在多方竞争中占据一席之地，无疑需要具备独特优势。李晓林指出，知识联邦比联邦学习的范畴更大、更系统，更有层次，“联邦学习是知识联邦的一个子集。”

知识联邦作为一套技术框架体系，与联邦学习、区块链、隐私计算、安全多方计算等其它技术领域都紧密相关。这些单一技术，在知识联邦的不同层面各自发挥作用，共同服务于数据“可用不可见”的大目标。

同盾发布的知识联邦白皮书显示，知识联邦具有三大优势：第一是全样本触达。联邦后机构间的数据，虽然各自为所有者控制，由于可以触达更多的数据，其性能甚至会超越维度有限数据的中心化聚集方式。

第二是数据不动模型动。联邦后的原始数据保留在本地，计算和学习也发生在本地，中心节点仅对参与方模型知识进行安全的聚集。弱中心化模式达成了效率和安全之间的平衡，尤其适合在强监管行业应用。对银行等金融机构来说，知识联邦的应用前景尤为广阔。

第三是知识也可以安全的共享融合。比如参与方通过NLP构建本地的知识图谱和各种网络节点的关系，再通过知识联邦来构建更完整的虚拟图谱，这样既能帮助识别欺诈团伙，又能提升企业征信的风控模型。人工的知识也可以融入其中(human in the loop)，自主自适应的构建和融合多源知识，提炼出最有效的洞见来做智能分析与决策。

李晓林说：“在知识联邦的模式下，模型训练时每个银行和金融机构，各自的数据不需对外输出，甚至连模型的参数都不用给到对方，只需要将模型梯度的变化加密后在密文空间里安全的聚合。这样攻击者不能反推出源数据。”

基于知识联邦理论体系，同盾科技推出了工业级应用产品智邦平台（iBond），通过建立相应的任务联盟，解决不同应用场景需求。

在2020年10月举办的全球人工智能大会智能金融高峰论坛上，同盾联合浙江大学、复旦大学、百度大数据实验室、360集团、平安科技、等学界业界等多家顶尖机构成立“知识联邦产学研联盟”，旨在实现数据安全前提下，共同构建优质数字技术生态。

李晓林认为，按照目前人工智能发展态势，2040年前后，人工智能将步入3.0时代，除数据、算力、算法三要素之外，知识要素将成为第四要素。

开放智能大脑浮出水面

2020年11月，同盾人工智能研究院发布知识联邦技术体系下的数据安全交换(FLEX)协议，并于12月将其开源。该协议中包含一系列的约定，只要遵守这些约定，参与方就可以安全地加入到联邦，无需担心数据隐私会有泄漏风险，全面实现数据可用不可见。

协议背后，藏着李晓林和同盾对未来的野心。在李晓林看来，未来肯定不会只有知识联邦一个联邦平台存在。

行业需要一套完整的联邦数据安全交换标准，让各个参与方在选择使用联邦平台时有规可依，只要遵循相应标准，不同体系之间同样可以实现数据交换，知识互通。

一旦参与机构(数据提供者)足够多，联邦规模足够大，数据多样性就有保障，也就会有更多机构(数据使用者)愿意来使用联邦服务，也会有更多科技型机构(模型和应用开发者)来提供丰富的算法、模型和应用。

届时，知识联邦可以充分发挥平台作用，对参与机构提供的数据，以及科技机构提供的模型和应用进行评估，将数据作为生产资料的价值发挥到最大。

李晓林将其称之为电商式的平台，参与方在数据可用不可见的安全环境中，进行数据、模型应用的交换，甚至可以在区块链等技术的保障下进行自由交易。而知识联邦作为平台方，可以对参与方贡献出的数据和模型评分。

良性循环就此建立，李晓林说，知识联邦的应用范围，也将不再局限于某一个行业，而是有可能成为贯穿各行各业的开放的智能大脑。