友盟+Hologres：千亿级多维分析平台建设实践

67 0 0

导读：作者：张哲（花名渝知）友盟+高级技术专家友盟+ 简介友盟+ 以数据智能，驱动业务增长为使命，为移动应用开发者和企业提供包括统计分析、性能监测、消息推送、智能认证等一站式解决方案。截止2023年6月，已累计为270万移动应用和980万家网站，提供十余年…

作者：张哲（花名渝知）友盟+高级技术专家

友盟+ 简介

友盟+ 以“数据智能，驱动业务增长”为使命，为移动应用开发者和企业提供包括统计分析、性能监测、消息推送、智能认证等一站式解决方案。截止2023年6月，已累计为270万移动应用和980万家网站，提供十余年的专业数据服务。

作为国内最大的移动应用统计服务商，其统计分析产品 U-App & U-Mini & U-Web 为开发者提供基础报表及自定义用户行为分析服务，能够帮助开发者更好地理解用户需求，优化产品功能，提升用户体验，助力业务增长。

为了满足产品、运营等多业务角色对数据不同视角的分析需求，统计分析 U-App 提供了包括用户分析、页面路径、卸载分析在内的多种「开箱即用」的预置报表，集成 SDK 上报数据后即可查看这些指标。除此以外，为了满足个性化的分析诉求，业务也可以自定义报表的计算规则，提供了事件细分、漏斗分析、留存分析等用户行为分析模型，用户可以根据自己的分析需求灵活地选择时间范围、设置事件名称、where筛选和Groupby分组等。

如上所述，U-App 服务了众多应用场景，每天处理接近千亿条日志，需要考虑平衡好数据新鲜度、查询延迟和成本的关系，同时保障系统的稳定性，这对数据架构和技术选型提出了极高的要求。

针对报表类型不同的看数场景和业务需求，我们底层技术架构通过多种产品来支撑。在数据新鲜度方面，分别使用 Flink 和 MaxCompute 提供了T+0 的实时计算和 T+1的离线批量计算，主要支持预置报表的计算场景，并将计算好的结果导出到类HBase 存储，能够支持高并发的报表查询。在分析时效性方面，使用阿里云的Hologres 实现自定义报表支持秒级的 OLAP分析，当处理的数据周期跨度大时，可能会出超过内存算子处理范围，因此我们转化为离线计算引擎来执行，同时也让交互体验从同步降级为异步。

在本文中，我们会分享友盟U-App 背后的技术实现，以及友盟在行为分析和画像分析场景上的最佳实践。

友盟+技术架构

如下图所示，在大数据领域这是一个比较通用的数据处理 pipeline，贯穿数据的加工&使用过程包括，数据采集&接入、数据清洗&传输、数据建模&存储、数据计算&分析以及查询&可视化，其中友盟U-App 数据处理的核心架构是红框部分。

U-App 整体架构如下图所示，从上往下大体可以分为四层：数据服务、数据计算、数据存储以及核心组件：

数据服务：将查询DSL 解析为底层引擎执行的DAG，同时智能采样、查询排队等来尽可能减少系统过载情况，保证查询顺滑

数据计算：根据不同分析场景抽象沉淀了分析模型，包括行为分析和画像分析两大类

数据存储：使用了以 User-Event 为核心的数据模型，提供基于明细数据的行为分析

核心组件：离线批量计算使用MaxCompute，流式计算使用Flink，OLAP计算使用Hologres

在设计系统架构时，支持多引擎是优先要考虑的，主要有以下原因：

鉴于成本、稳定性、高可用以及容错性考虑，引擎需要根据查询场景分级路由，将查询性能好的OLAP计算与健壮可靠但延迟较大的离线计算相结合。用户可以使用 OLAP 分析进行灵活的数据探查，当数据量超过一定阈值时自动转为离线计算。另外，对于添加到看板需要例行查看的报表也会通过离线的方式批量计算。

鉴于存储成本考虑，将数据进行冷热分离，实时数仓只储最近1个月热数据，超过查询范围的Query会自动路由到离线计算。

从系统的可扩展性考虑，OLAP领域发展很快，众多引擎百花齐放，需要为之后对接其它引擎预留出灵活的升级空间。