机器之心发布
机器之心编辑部
工业互联网的发展带来了庞大体量的数据,且增速非常快,对数据安全有强诉求,包括工业互联网在内的整个数据流通领域,都会告别数据明文时代,开启数据密态时代新征程。
数据正成为新时代的石油。但与数据石油并存的还有采集、共享与流通障碍制造的孤岛与各种风险。
2021 年 9 月 1 日,历经三次审议,《数据安全法》正式实施。多部有关数据安全法律法规,凸显出数据领域合规发展的需求,也将原本小众的隐私计算推到更多人的面前。
所谓隐私计算,是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”“可算不可识”。
隐私计算并非单一技术,而是一套包含 AI、密码学、数据科学等跨学科知识的技术体系。多方安全计算、联邦学习、可信执行环境等作为隐私计算的重要技术分支,理论基础研究已开展多年。
这几年,金融、医疗、政务等行业数据合规迫切需求,已经使得实现数据 “可用不可见”、“可算不可识” 成为普遍需求。随着工业互联网迈向数据密态时代,无论是工业数据价值保护、数据资产界定,还是工业互联网价值的真正释放,隐私计算都是一种非常好的解决方案。
“工业数据密态时代需要拥抱可信隐私计算。” 在 3 月 25 日举行的工业互联网安全讲坛上,蚂蚁集团副总裁韦韬发表了题为《迎接工业数据密态时代,拥抱可信隐私计算》的演讲,详细阐述了数据密态时代的技术特征,提出可信隐私计算技术将是工业数据密态时代的解决方案,可以支撑类如 “东数西算” 级别的大规模数据场景。
机器之心对韦韬演讲内容做了不改变原意的整理。
一、迈向数据密态时代的技术挑战
工业互联网概念由美国企业 GE 提出,是新一代信息通信技术与工业经济深度融合的全新工业生态、关键基础设施和新型应用模式。
“这是一个非常宏大的行动计划。”韦韬解释道,以网络为基储平台为中枢,以数据为要素,通过对人、机、物全面连接安全为保障的发展体系,变革传统制造模式、生产组织方式和产业形态,构建起全要素、全产业链、全价值链、全面连接的新型工业生产制造和服务体系。
概念虽然源自美国,但中国对工业互联网有着更加系统化和前瞻性的规划。
例如,2021 年 2 月,工业互联网专项工作组印发的《工业互联网创新发展行动计划(2021-2023 年)》(工信部信管〔2020〕197 号)提出了五方面、11 项重点行动和 10 大重点工程,着力解决工业互联网发展中的深层次难点、痛点问题。其中,明确了数据是平台应用的关键资源,要推动数据汇聚、流转、分析、应用,进一步发挥数据在工业互联网创新发展中的重要作用。
工业互联网的发展对数据的诉求非常强,甚至有不少专家认为,只有把工业互联网数据流通的问题解决,工业互联网的价值才能真正展现出来。
数据要素流通是工业互联网产生价值的重要基础,韦韬称。互联、数据采集是工业互联网产生价值的基础,只有做到互联与采集数据,而不是止步于连通性(connectivity),分析与智能化才有价值。
在工业互联网领域,数据要素流通至关重要的,是整个工业互联网产生价值的重要基矗但同时,挑战也显而易见。
例如,工业互联网以兆 PB 的方式来做计算,数据量级非常庞大,增速非常惊人。经常有业界人士感慨,工业互联网、物联网产生的数据如此庞大,一些新兴的数据库技术如何做这种特殊的匹配,是非常难处理的一件事。
我们可以在一些高科技地区看到很多自动驾驶公司实验车辆出没,这些车上顶着各种各样的探头,各种各样的传感器,这种传感器其实是把周围的人和环境,和这些工业互联网的数据耦合在一起。这些传感器数据的重要性也逐渐被广泛关注,如果缺乏相关安全管控,甚至可能引发国家安全相关问题。
工业互联网数据是网际空间(cyber space)和物理空间的一个强耦合点。“(数据)处理挑战非常大,(数据)量级极其惊人,数据重要性也非常高,甚至涉及到国家安全层面,它的安全保障也非常的重要,这就是整个行业面前的一个严峻的挑战。” 韦韬称。
工业互联网数据传统上以商业化数据为主,但也能看到越来越多的涉及到个人数据的融合。
国家十分重视数据安全的重要性。例如,习总书记明确指出“网络安全和信息化是一体之两翼、驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施。”
国务院办公厅的《要素市场化配置总和改革试点总体方案》第二十条建立健全数据流通交易规则中强调了“原始数据不出域。”
无论是政策法规要求,还是技术成熟度,整个数据流通领域,包括工业互联网的数据要素流通,都会告别数据明文时代,开启数据密态时代新征程。
二、技术挑战与可信隐私计算
数据密态时代对技术提出了五大要求,亦即:性能高、稳定性强、灵活适用、成本低、安全性强。
首先,作为实现数据安全的基础设施技术,最基本要求是性能要足够高,要达到每小时训练亿级样本的量级。一旦上到多方安全计算、联邦学习,它的性能下降极其严重。因此,需要更加全面的技术框架,来支撑性能上的要求。
其次,作为一项关键基础设施,对技术的稳定性也有非常高的要求。服务国计民生的基础设施可靠性至少要 4 个 9 以上,而行业靠前的服务提供者基本上都要向 5 个 9 的级别来努力,难度非常大,但也是关键基础设施技术必须满足的要求。
第三,作为关键基础设施的技术,成本要足够低。只有让其成为快消品而不是奢侈品,才能成为行业基石。总体上,密态计算的成本增加,不应该超过明文计算成本增加的一个数量级。
第四,技术在实际应用中的适用性要强,算法和安全评估不能随着场景或者参与方的增加而变动。
最后,作为上述所有特性的基础,技术的安全性要符合相关级别的要求,能够达成行业共识。安全性是一个隐性要求,不能为了提高性能降低成本,损失安全性,这也违背了数据密态时代大的诉求方向。
不过,如何保障安全性面临非常严峻的挑战。从产品来看,融合和根据需求适配已经成为趋势。满足数据密态时代的产业需求,仅靠单一技术是不够的。
事实上,实现这样的数据安全要求的隐私计算技术流派曾一度成为热门话题。比如,可信计算环境 TEE 无需深入研究算法和密码学,依靠可信硬件实现数据保护,但也面临着系统安全的诸多挑战;多方安全计算历史悠久,提供大量底层安全技术;联邦学习则结合密码学和分布式计算实现多方协作的机器学习。
“未来趋势是将密码技术、可信计算技术等多项技术融合形成可信隐私计算,”韦韬认为。
三、为什么是可信隐私计算技术
可信隐私计算的核心是,在隐私计算技术体系层面提供可信支撑,对个人信息和敏感数据提供高效的、全生命周期的安全合规保障。业界可以在可信隐私计算的框架下,有效解决当下面临的合规、业务支撑、安全保障等挑战。
例如,可信隐私计算可以很好满足企业合规要求。2021 年 11 月 1 日正式实施的《个人信息保护法》一共出现了 27 次同意。
“每一新应用场景使用个人信息,都要获得个人明确单独授权,数据不出域、可用不可见,都要先有授权,概括授权已经是明确违法违规。” 韦韬称,27 个同意形成的“授权墙”,对隐私权保障提供了非常坚实的基础,同时也对行业数据应用也提出了非常严峻的挑战。
例如,AI 模型训练,如果每一个新应用场景的 AI 模型训练,都需要每一条数据主体个人的重新授权。大多数场景因为这样巨大的授权挑战将难以获得无偏见的训练数据,从而导致 AI 技术的应用效果受到严影响。对于风控等与黑灰产对抗的领域,黑灰产所使用的账号,更不可能给予相关授权。
在这样的要求下,经过立法方、监管和从业者很多密切的沟通后,为行业发展留下核心切口是匿名化。
“匿名化是一个非常严格的要求,指个人信息经过处理,无法识别特定自然人,而且不能复原的过程。” 韦韬表示,我们把这个法条归纳总结成“可算不可识”,其实是法律条款对技术要求的体现。
“它的关注点不是对于数据如何脱敏,而是数据处理、数据流动、价值提取的过程中间必须满足匿名化的要求,严格保持特定个人身份不能被识别。‘可算不可识’是要在满足匿名化要求的同时,提升数据要素应用的能力。”
匿名化应该是在安全受控环境内的相对匿名化。韦韬称,我们应该把信息处理环境控制起来,并不是做了去标识、脱敏,就可以堂而皇之地挂在互联网上,让任何人去分析,任何人去处理。“把环境控制住,保障个体颗粒度数据要素价值能够持续。”
在这种情况之下,可信计算技术实际上是非常好的一个技术,因为它能够不依赖于个体人运维和审计能力,而是可以通过技术手段在网络上进行远程验证,来保障这些数据不被滥用。
可信计算的关键技术支点包括:运行环境隔离,即数据的存储、传输与处理环境与外部有效隔离;远程验证,数据处理和输出的管控机制可以远程验证;TPM/TCM 支持的远程审计,数据处理和输出的过程和结果可以远程审计,支持后继上链。
除了相对匿名化领域,可信隐私计算的适用性和可靠性也有望解决工业互联网领域的业务瓶颈。
例如,工业互联网数据规模极其庞大,而且增速非常快。当前隐私计算有一个比较严峻的瓶颈就是它的数据计算都是需要高频度跨网的计算。
要跨网就无法回避公网或者专线带宽、时延带来的严重瓶颈。包括联邦学习在内,做 30 万数据的 GBDT 树模型训练,在目前普通的公网或专线条件之下,30 万样本(每个样本 400 维属性数据)这样普通的小规模数据集,需要 8 个小时。在大规模的行业应用中非常受限,对于工业互联网数据来说,这个规模其实远远不够用的。
另外,由于所有的计算都要很强地依赖于跨网络交互,导致成本非常昂贵。即使在云计算环境里面,最贵的成本不是计算成本,也不是存储成本,而是带宽成本,而这恰恰是一个现在跨网络隐私计算的一个核心依赖。
为此,蚂蚁集团在可信隐私计算技术框架下首创可信密态计算技术,(Trusted-Environment-based Cryptographic Computing,简称 TECC),将可信计算技术 TPM、TEE 与多方安全计算技术 MPC、联邦学习 FL 有机的结合起来,符合多方安全计算标准要求,有效抵抗困扰 TPM、TEE 的供应链攻击、侧信道攻击问题。
可信密态计算,是把所有的数据以密态分片的形式,跑在多个 TEE 群上,任何一个 TEE 集群,单独的 TEE 集群上面所获得的所有的分辨信息是不可能推出任何有效明人信息的,做这样的保障非常好地抵御了困扰 TEE 的供应链攻击和磁性抗攻击。
而且,由于它的计算上传虽然还是由各参与方密态分辨以后上传到 TEE 集群里面来,但是它计算是在一个汇聚点,TEE 可以远程验证做安全保障的汇聚点集群上来做计算。
可信密态计算技术满足了可信隐私计算对技术能力要求最高的适用性和可靠性,不受制于带宽的瓶颈,性能可靠性和成本上都有显著,能够满足如 “东数西算” 这样的大规模的数据场景。
四、落地挑战需要行业共建
诞生几十年的隐私计算技术,如今再度火热。总体而言,行业目前还处在发展初期。
国内涉足隐私计算的公司大致分为四类。一类是互联网平台企业,比如蚂蚁集团,一类是专注隐私计算的初创。还有其他从大数据公司转型而来的玩家,以及一些区块链公司。
产品层面,据中国信通院统计,截止 2021 年 7 月,依据中国通信标准化协会隐私计算相关标准,通过中国通信院云计算与大数据研究所隐私计算产品测试的技术,有 50 家公司的 67 个产品。
行业即将迎来整个数据密态时代,包括工业互联网场景,整个全面的社会的数字化转型。可信隐私计算的合规性,它的实用性、可靠性、安全性上面都能做出新的突破,能够真正保护好数据安全。
2021 年,毕马威与微众银行联合发布隐私计算行业研究报告显示,三年后,软件销售和服务收入潜在规模可达 100 亿到 200 亿元。
同时也要清醒认识到,隐私计算产品的成熟度与工程化水平还在提升过程中、性能与安全兼得的两难以及技术信任等问题,仍然有待突破。而且,技术也并非万能,诸如工业互联网面临的数据流通、共享仍需要各方,特别是监管法律的完善与健全。
“隐私计算行业还处于起步阶段,政策、法规、以及技术的发展,相关生态的互联互通,都需要全行业的共同努力。” 韦韬表示。