当下“打破数据孤岛”与“深入挖掘数据价值”的理念被更广泛认知,数据与智能的融合被视作企业发展的新引擎。一个显见的问题是,在数据科技与人工智能关注不同要素,沿两条不同的技术路线越走越远背景下,融合如何充分实现。
作为全球领先的云服务解决方案供应商,以及云上数智融合的推动者,亚马逊云科技日前就“企业在云中打造统一数据基础底座,实现大数据和机器学习的双剑合璧”的相关内容分享了自身的理念与成果,并对提供数智化技术的“智能湖仓”架构的新变化进行了说明。
(图:亚马逊云科技大中华区产品部总经理陈晓建)
企业“数智融合”过三关
亚马逊云科技大中华区产品部总经理陈晓建分享了亚马逊云科技在多年服务中归纳的企业数智融合共性问题,主要有三点,且相互关联:
一是,大数据和机器学习“分而治之”。一方面,既表现在技术路线的差异上,又表现在负责团队的各自独立上;另一方面,也存在专业数据在不同业务部门间缺少流转的情况,这也给机器学习中数据采集和解构的过程带来了额外的负担。
二是。数据处理能力整体不足。现实情况中,负责机器学习的团队更关注算法,缺少对海量规模数据处理的能力,这对算法的后续优化与后续应用的有效性都有影响。
三是,数据分析人员参与度低。陈晓建介绍称,现实情况很可能是,一个算法在研发和测试阶段表现非常好,但一到使用环节就暴露很多问题,因为测试环节只是真实环境的简单模拟,真实环境复杂度会高很多。
以上问题的存在,也是亚马逊云科技认为“企业在云中要打造统一的数据基础底座,实现大数据和机器学习的双剑合璧”的原因。
亚马逊的“云上数智融合”
就陈晓建的描述,一个好的、合理的大数据和机器学习融合架构要具备三点关键的能力特征,这也是亚马逊云科技努力实现的:
其一,能够建立统一融合的数据底座。其中包括数据质量、权限、开发、可视化,通过大数据与AI机器学习之间高效、充分的双向互动与循环,实现数据融合。重点在于,实现统一的数据共享,避免重复工作、增加复杂度、浪费成本;建立统一的数据采集、存储、质量权衡标准、权限控制,推进数据流动;统一开发和流程编排。
其二,能够为机器学习提供生产级的数据处理能力。重点是能够通过开放的引擎,对异构的、多元的数据进行处理;具备弹性,能够根据业务的负载进行灵活的底层资源收缩;优化数据质量,为机器学习提供高质量的数据源。
其三,能够通过智能数据分析,统一技术和业务价值。通过为用户提供更智能的数据分析服务,让业务人员可以完成智能分析、模型效果验证以及自主式创新,进一步是吸纳研发与业务之间的协同。
“智能湖仓”的能力迭代
根据亚马逊云科技大中华区产品部技术专家团队总监王晓野的描述,亚马逊云科技认为,企业在现代化数据进程中,需要的不是单一的产品,而是需要灵活开放的架构,通过可扩展、安全可靠的数据服务,专门构建带来高效分析能力的数据分析引擎以及AI工具,从而提供极致性能。
至于近一年来的具体升级,则是在关联前述关键能力的前提下展开:
亚马逊云科技统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。
其中,Amazon Lake Formation推出诸多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制;Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务为大数据和机器学习提供统一的开发平台。
亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。
其中,Amazon Athena能够对支持多种开源框架的大数据平台,包括多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。数据源中以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
亚马逊云科技还不断提供更加智能的数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。
例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习;还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。
目前来看,在企业转型纵深推进、数智融合加速进行的过程中,“建立统一的数据基础底座”是可行路径,统一底座在“云”中落实,能够极大限度地保障融合的有效性,亚马逊云科技的“云、数、智三位一体”服务组合将为相关企业提供更多有效助力。(钉科技原创,转载请务必注明出处“钉科技网”)