人工智能领域有哪些可参考新实践？

AI1年前 (2023)发布 aixure

36 0 0

导读：上周又有人工智能公司被爆用人工假装智能，但业界不乏有好的实践值得参考，尤其是图像视频，自然语言处理，搜索推荐等领域，AI 已经不仅仅限于概念，而是切实地在各种实际应用中落地并促进了应用的极大发展。在大数据方面也越来越多应用机器学习技术。这里推…

上周又有人工智能公司被爆用人工假装智能，但业界不乏有好的实践值得参考，尤其是图像视频，自然语言处理，搜索推荐等领域，AI 已经不仅仅限于概念，而是切实地在各种实际应用中落地并促进了应用的极大发展。在大数据方面也越来越多应用机器学习技术。这里推荐几个互联网公司在以上多个 AI 领域的具体应用实践，涉及到多个领域的应用场景，方案选型，实际效果等各种经验总结。

高性能网络通信框架释放 AI 算力的实践

相比于 MapReduce 等传统数据处理做法，大规模分布式 AI 场景下的网络通信面临着不一样的挑战。对于处理大规模离散特征的算法，如逻辑回归（LR），消息吞吐量将直接影响到整个训练任务的性能。对于处理稠密特征的深度学习算法或者是树模型（GBDT），网络延迟很容易成为性能瓶颈。不同的 AI 算法面临不一样的性能瓶颈，第四范式设计了自己的 RPC 框架PRPC，以求能在多变的 AI 场景下，都能实现优秀的性能。通过 Zerocopy 和自研事件调度系统降低通信延迟；通过 RDMA 技术优化机器学习离线训练和线上预估。PRPC 的定位是尽可能的适应不同的机器学习的场景，最大化分布式计算的性能，所以我们让他与应用层进行了适当的耦合，从而使的整个过程都是 Zerocopy 的，同时上层算法也尽可能进行原地计算，使的整个机器学习任务的性能达到极致。对于 LR 算法和 GBDT 算法，RDMA 模式下的 PRPC 有数倍性能提升。与 ZMQ，BPRC 和 GRPC 对比 PRPC 在大部分机器学习场景下有较大性能优势。

你将收获

了解大规模分布式机器学习场景下不同算法的性能瓶颈和解决思路；

高性能组件 RDMA 在大规模分布式机器学习场景下的应用和网络性能优化经验；

RPC 的接口设计以及 Linux 事件调度的优化。

人工智能在手淘消息推送平台中的实践和应用

作为国内最大的电商交易平台，手机淘宝每天都会发生海量的用户行为和交易动作。我们希望能够充分利用这些数据和合适的算法，来更加智能的进行主动内容推送和营销。应用内的推荐会偏向于处理用户来访所引发的推荐需求，而我们要做的更多是一种主动推荐，目标是通过将用户状态、触发内容和触发时机进行统一的建模，来主动的进行消息和关键内容推送，让用户不要错过真正有用的事件和信息。

你将收获

手淘消息 Push 平台介绍，以及对于用户增长的帮助和定位；

强化学习和个性化情景计算如何有效解决消息推送时机、内容选择、打扰度控制、场景选择等难题；

如何结合业务目标设定有效和科学的长期收益目标，并且通过算法建模和优化长期收益。

大数据在趣头条的演进：Kafka 读写分离、Hadoop 治理、机器学习平台

趣头条在 2018-2019 年经历了业务的高速发展，主 App 和其他创新 App 的日活增加了 10 倍以上。相应的，大数据系统和平台也从最初的 100 台机器，增加到 2000 台以上，技术栈从单一的离线数据报表，发展到离线 + 实时 + 机器学习的完整系统。这个分享将从 3 个主要方面，阐述大数据系统的演进路线，和经验分享。

Kafka 读写分离背景：各业务部门数据消费方式的差异，经常导致 Kafka 集群节点的不稳定。解决方案：读写分离，第一层集群只负责接收数据，第二层集群按部门隔离，用 Flink 把数据从第一层集群同步到第二层。第一层集群前面还有个 Proxy 负责统一接收数据。这个方案参考了 Netflix 的设计。

Hadoop 治理背景：集群从 100 台增加到 1500 台，很多历史遗留问题，例如用户和权限管理的缺失，缺少 Federation 对于各部门的隔离，小文件，低价值数据的归档和删除，计算队列的利用率，阿里云 EMR 无法完全满足定制化的需求，客户机的管理混乱，等等。解决方案：自研 Hadoop 集群管理平台，基于 CDH 的源码二次开发，多 Federation + HA，按部门的存储和小文件上限管理，数据生命周期管理，元数据与数据全链路监控，用户权限管理。

机器学习平台背景：公司算法部门有多套训练平台，缺乏统一的资源管理，调度平台，特征仓库，等等。解决方案：所有训练集群统一到 K8S 管理（包括 CPU 和 GPU 资源），用 KubeFlow 管理任务调度，自研 K8S 任务调度模块提高集群资源利用率，开发特征管理仓库，开发模型管理仓库，用 K8S 管理线上预测服务，等等。

你将收获

熟悉阿里云大数据平台，和其他公有云方案的差异，和应用场景；

大数据系统快速增长过程中，如何保障稳定性，如何做技术选型；

如何从 0 到 1，构建大规模数据系统平台；

机器学习平台的构建，发挥 K8S 的作用，如何跟数据系统集成。

基于 Ray 引擎的在线机器学习

伴随着大数据时代的来临，越来越多的业务场景开始依赖机器学习进行商业上的升级。同时随着计算及 AI 体系的逐步成熟，以及业务对于机器学习的越发依赖，分布式机器学习从传统的离线学习逐渐开始向在线学习演进。相比于传统的离线机器学习，在线学习可以带来更快的模型迭代速度，让模型预测效果更贴真实情况，对于线上的波动更加敏感，因此，一套好的在线学习架构就格外重要。

在最近两年，国内的各个一线互联网厂商分别推出自己的在线学习技术体系及相关架构，蚂蚁金服从 2018 年 7 月开始，在基于最新的 Ray 分布式引擎之上，自研了金融级的在线学习系统，与传统在线学习框架相比，在端到端延迟，稳定性，研发效率等方面都有不同程度的提高。希望可以通过本次介绍，让大家对于蚂蚁金服的在线计算体系有所了解。

你将收获

基于 Ray 的金融级的在线学习系统怎么做；

与传统在线学习框架相比的优势；

蚂蚁金服的在线计算体系。

# AI