加深人工智能数据治理 金融大模型开启私有化部署

人工智能应用1年前 (2023)发布 aixure
76 0 0
导读:本报记者 蒋牧云 何莎莎 上海 北京报道 随着以大模型、AIGC为代表的人工智能技术不断发展,我国的金融大模型应用已经进入新的发展阶段。 除了基础技术落地之外,业内也在隐私保护、数据治理等方面有了更多思考。 《中国经营报》记者观察到,近期,不少金融机…

本报记者 蒋牧云 何莎莎 上海 北京报道

随着以大模型、AIGC为代表的人工智能技术不断发展,我国的金融大模型应用已经进入新的发展阶段。

除了基础技术落地之外,业内也在隐私保护、数据治理等方面有了更多思考。

《中国经营报》记者观察到,近期,不少金融机构或金融科技企业正通过私有化部署的方式进行私有数据的训练,以达到数据安全的合规要求,防范相关风险。

多位业内人士告诉记者,通过数据脱敏、数据匿名化、私有化部署等方式,可以在确保数据真实性的同时,保护数据的隐私安全。但也需要正视的是,私有化部署下,在模型智能程度、部署成本等方面仍面临诸多挑战。未来,从行业与企业的角度,需要不断完善相关制度,优化自身算法与技术。

AI治理课题引关注

人工智能热潮持续近一年后,业内迎来的冷思考是,在带来巨大机遇的同时,人工智能技术也带来了难以预知的各种风险和复杂挑战。特别地,人工智能治理的课题正受到全球关注。

近日,中国在第三届“一带一路”国际合作高峰论坛上提出《全球人工智能治理倡议》,围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案。此前,《生成式人工智能服务管理暂行办法》首次对生成式人工智能研发与服务做出明确规定,也是全球首部针对生成式人工智能进行监管的法律文件。

具体到金融业,作为大模型落地的热门场景之一,其对于数据与隐私安全有着更高的要求。通联数据智能投研业务中心总经理许丹青告诉记者,目前人工智能应用于金融业务中,需要将客户内部数据与外部公开数据进行整理、分析与推理。在AI技术应用过程中,内外部数据的独立性以及客户内部数据不被模型所采集等方面,存在一定的信息与数据安全风险。

那么,为防范相关风险,目前金融业中的AI应用具体采用哪些举措?

许丹青表示,在合规风险防范方面,通联数据将AIGC技术定位为专业投研人员的效率工具,作为辅助工具帮助投研人员做总结、整理等重复性与低密度的案头工作。AIGC主要应用于信息压缩与萃娶文章提炼总结、标准模板生成等报告等方面。同时,提供所有推理的溯源,确保数据的真实性与有理可循。

许丹青进一步表示,“我们将数据安全与治理方案从三个方面进行防范:在数据层,将数据源分为客户级数据与公开数据,不同数据层级采用不同的模型学习与加密流程;在模型层,采用通联数据特有的数据、开源模型框架等技术,开发行业大模型与客户小模型应用,结合不同的数据源等级进行应用;在输出层,使用非对称加密与反爬机制,确保输出对用户友好且不被其他三方所引用。”

恒生电子AI技术专家则介绍道:“针对数据安全和隐私保护,我们采取了一系列的措施确保数据的脱敏、合规、授权和追溯,包括去除数据中所有敏感的个人以及机构敏感数据;对收集的所有数据进行匿名化和加密处理;制定严格的数据使用规范和访问控制,只允许授权人员在控制环境下使用数据;记录所有操作行为,保证数据来源可追溯;与用户签订数据保密协议,明确数据所有权和使用期限等。同时,我们还通过建立可靠的网络安全系统、定期开展安全评估等方式,识别和消除数据安全隐患。”

他表示,AI治理存在挑战的原因在于,目前AI技术进步飞快,而原有的政策法规和伦理规范并不能快速跟上技术发展。同时,监管和公众对于AI技术的认知还有待提高。要解决这些问题,未来可以从以下4个方面努力:在企业层面,优化算法和技术,建立内部安全审查制度,主动接受外部监管,以规避人工智能可能带来的社会伦理问题;在行业层面,建立AI伦理规范,开展行业认证,形成行业自律;在政府层面,加快出台AI监管法规和政策,推动行业合规发展,鼓励公众监督参与,加强国际合作;在公众层面,提高对AI的理解,理性看待AI的进步。

私有化部署的两面性

事实上,除了对数据进行脱敏、预先封装等处理之外,基于金融机构对数据安全与隐私安全的考虑,大模型的私有化部署正在成为趋势,不少企业在升级大模型产品时增加了部署方式选择。例如,恒生电子近日发布了金融大模型LightGPT最新的能力升级成果,以及基于LightGPT打造的多款光子系列大模型应用产品,并宣布正式开放产品公测。其中,LightGPT支持私有化和云部署两种模式,使得金融机构可以根据自身的业务需求和安全策略,选择最合适的部署方式。

私有化部署,也称为私有云部署,指为一个能单独使用而构建的云, 提供对数据的安全性和服务质量的最有效控制。私有云可部署在企业数据中心的防火墙内,也可以部署在一个安全的主机托管场所。

有金融机构人士向记者坦言,境内的大模型训练需要满足《网络安全法》《数据安全法》等一系列相关法规,同时需要获得个人信息的使用授权,以及受到输入数据的保密约束。在境外数据方面,则额外涉及数据主权问题、数据跨境问题以及不同区域的法规差异。所以,实践过程中,很多机构的内部数据只能通过私有化部署来处理,部分行业数据受限于授权范围,也仅可使用私有化的模型。

关于金融大模型部署方式的发展趋势,恒生电子董事长刘曙峰认为,混合部署是一个常态化的方案。采取私有化部署+MaaS服务相结合的方式,一方面满足监管合规、数据安全的要求,另一方面可以快速引入行业资源和能力,完成大模型的应用落地,并通过订阅服务获得数据服务、AI服务的持续更新。

而业内普遍认为,大模型在本地私有化模型的落地依然处于初期阶段,仍有面临许多挑战。

某金融机构技术负责人向记者表示,“需要了解的是,目前的大语言模型技术来源主要有三种:第一种是海外的模型,类似OpenAI提供的ChatGPT;第二种是国内一些大厂提供的模型,如百度的文心一言、阿里的通义千言等;第三种是开源的模型,如llama、ChatGLM、Bloom等。这些模型里面,第二种和第三种的效果与ChatGPT有很大区别,特别是与OpenAI的GPT4模型对比。但是第二种和第三种模型,在执行某些特定任务时还是能达到一定效果,这也使得大语言模型的私有化部署成为可能。其中,第一种模型私有化部署(如OpenAI)的难度很大;第二种模型,部分厂商支持私有化部署,还有一部分只支持API调用;第三种模型,有一部分因为开源证书限制而不允许私有化部署商业化使用,但是也有很大一部分支持商业化使用,这部分模型可以自主实现私有化部署。”

该负责人进一步指出,目前,大模型的私有化部署仍存在模型智能程度、部署成本、任务迁移等多方面的挑战。

具体而言,在智能程度方面,由于支持私有化部署的模型可供选择的空间不大,模型的智能程度远远不如业内头部企业的模型,训练效果也会大打折扣,因此这类模型的私有化部署只能在有限场景下使用。

在任务迁移方面,开源模型由于训练数据集的原因,导致在场景落地的时候,会出现一些“水土不服”,比如训练的任务类型与具体的任务场景有偏差,直接使用会有效果损失。这种情况则需要利用企业自主数据集来进行特定任务、特定场景的针对性优化。

在部署成本方面,因为模型的智能程度、模型训练等,这些都给模型的部署带来了高昂的成本。除了个别规模小一点的模型可以在消费级的显卡上训练外,其余的模型都需要在多张A100的机器上进行训练。但是规模小的模型效果又达不到最佳,而A100等显卡不管是租赁还是采购,成本都非常高。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...