在2019年的re:Invent大会上,当亚马逊AWS首席执行官Andy Jassy进行主旨演讲时,他意识到有关机器学习的内容简直太多了,仅仅这一部分就花了差不多75分钟。
时间宝贵,但内容更加重要,这促使AWS在一年后做出调整,在长达三周的re:Invent 2020上,机器学习单独拿出来成为内容担当。AWS机器学习副总裁Swami Sivasupamanian亲自登台讲解,美国IT媒体 SiliconANGLE评价,AWS发布的信息和一系列发布,“加强了其在机器学习领域的庄重承诺。”
机器学习不再“空中楼阁”
用Swami Sivasupamanian本人的话来评价机器学习,它就是“我们这一代人将遇到的最具破坏性的技术之一。”这句话,在整个2020年都已经被证实。
例如,疫情之下,零售商家试图通过线上各个渠道拓展销量,快速成为制胜法则。达美乐披萨使用机器学习进行订单管理,在客户下单仅10分钟左右之后,就能够提供新鲜的披萨。
而在医疗领域,机器学习运用的一个典型的应用场景是,医生用其来帮助判别病患脑部供血的状况或是癌症发展的状况,这种行话被称为“读片”的操作,正极大地改善和辅助医院的工作流程。
按照AWS公布的数据,接入并使用AWS机器学习服务的客户已经超过10万家,其中包括起亚、雅马哈、美国宇航局、普华永道等,不同行业不同机构的用户,正在把自己的数据交给机器学习来分析。
“机器学习就是工具,越来越多的行业用户开始使用工具,去更多地帮到他们的业务。” 在面向媒体和分析师的沟通会上,AWS大中华区云服务产品管理总经理顾凡如此解释,机器学习迅速渗透,是因为企业发现新工具有用且好用。
具体到AWS层面,不断夯实技术,简化机器学习难度就是一直以来的主题,其中必须遵循的理念是:将机器学习交到更多应用程序开发者和终端用户手中,而他们无需机器学习经验;让更多开发者应用机器学习,创造更好的终端用户体验。
技术领先,产品以用户为本,使用者自然纷至沓来。AWS公布的数据显示,目前92%的基于Tensorflow框架的机器学习工作负载,91%的基于PyTorch框架的工作负载都跑在AWS云上。在一系列云服务商中,AWS体现了绝对优势。
总结AWS在机器学习上一直以来的努力,顾凡认为,工具库上的深度和广度、开放心态以及一些必要的服务原则,是AWS被越来越多开发者和客户信任的原因。
首先,机器学习是一个“Right tools for the right job”的事情,顾凡称 “你希望运行什么样的工作,在什么样的场景下,应该选择工具箱中什么样的工具最适合。” 也就是一把钥匙开一把锁,合适的工具做合适的事儿。而AWS在机器学习服务上深度和宽度,能满足用户的不同需求。
其次,AWS力求采取开放包容的工具选择策略,让云端可以和客户的整个环境做到良好的集成。不仅是机器学习框架和接口标准,在AI芯片选型、计算实例上,也可以让用户根据应用的不同场景,自由选择。简单来说,让开发者自行选择最具成本效益的云基础架构。
不过,机器学习的一个关键是“Know-How”(专业知识),同时要实现解决方案的产品化。但这并不容易,因为人才奇缺,有时候,懂技术的人往往不懂业务,懂业务的人往往不懂技术。对此,AWS有必要向客户“授人以渔”,为客户赋能。
“当客户真正在工程方面有差距的时候,在产品原型实现方面需要帮忙的时候,我们会把客户扶上马再送一程,真正帮他/她快速地把一些业务难题,先用产品原型的方式把它实现出来。”顾凡说。
最终,在用户不断的机器学习实践中,复杂的“数据分析”及“AI计算”需求将持续爆发,专业的云计算服务商和数字化技术服务商价值将被快速释放。
自下而上
AWS在这次re:Invent陆续发布了基于英特尔Habana AI加速芯片的实例、Amazon Kendra企业搜索、Amazon CodeGuru自动代码审核、Amazon Fraud Detector自动欺诈检测等功能和服务,也借此更进一步打牢基础设施,拓展企业商用市场,从云端到边缘,实现对企业日常任务的重塑和改进。
长期观察AI技术的IT专家们不难发现,在洞悉机器学习的核心驱动力后,这些功能发布背后的逻辑就已经自然显现了。它是自下而上的。
首先是基础设施。
一个现象是,云计算厂商们在技术研发上的投入已经不局限于基本的云技术本身,还投向了芯片、开发框架、边缘计算、数据库核心软件等等。对于任何全栈云计算厂商而言,这些投入已经不可或缺。但从机器学习的角度来看,用AWS的话来总结,它们是打牢平台能力的坚实基矗
例如,AWS在这次re:Invent上推出机器学习训练芯片AWS Trainium,与标准的GPU实例相比,可带来30%的数据吞吐量提升,并降低45%的单次引用成本。此外,AWS Trainium和AWS的机器学习推理芯片AWS Inferentia在SDK上保持一致。
值得一提的是,当Habana芯片进入AWS云服务的时候,被英特尔视为一次在云计算市场上对英伟达的重要胜利。实际上,真正的胜利者属于AWS的用户们,根据AWS测试显示,Habana对机器学习任务这类云服务的性价比,能比目前基于GPU的云服务高40%。
无论英伟达GPU或英特尔Habana芯片,还是AWS自研机器学习芯片,在AWS上都永远是可选项。一方面,客户选择无比丰富,远远超过AWS的所有竞争对手。另一方面,当AWS选择追求极致时,大幅降低机器学习成本的畅想又让客户无法拒绝。
“如果只是依赖合作伙伴,很难把(机器学习)性价比做到极致,这也是我们一再强调AWS Trainium和AWS Inferentia两款芯片的原因,一个是机器学习训练里面的性价比的极致,一个是推理里面的性价比极致。” 顾凡说,AWS手握市面上绝大多数芯片,可任企业自由选择。“但回到合作伙伴的关系上,无论是英特尔还是英伟达,一定有不一样的场景对客户选择是合适的,其中我们不会干预客户的选择。”
对于大多数机器学习用户来说,AWS的 Amazon SageMaker是目前机器学习配置效率和性价比最高的选择。
Amazon SageMaker是面向机器学习开发者的集成开发环境和完全托管服务。它依托多项工具,化繁为简,使开发人员和数据科学家能够从根本上更轻松、更快速地构建、训练和部署机器学习模型,并降低成本。自2017年发布了SageMaker以来,SageMaker在机器学习开发者之间极受欢迎,成为AWS手中的机器学习大杀器。
反馈到业务上,一些客户发现,SageMaker“指导”下机器学习带来的业务增长,就有点像是魔法了。
比如拉丁美洲在线食品配送公司iFood,每月订单达 3060 万份,在超过 1000 个城市中注册了约 160000 家餐厅。iFood首席数据科学家Sandor Caetano表示,通过Amazon SageMaker,一方面,使用机器学习来改善顾客和餐厅的体验,让商家和商品的推荐更加智能和个性化。另一方面,体现在物流上的成绩则是,由于路线优化,配送人员的行程缩短了 12%。
而美国职业橄榄球大联盟 (NFL) 则是体育运动中使用机器学习技术的先锋,一方面,体育赛场天然是数据产生的高发地,选手和教练需要数据来指导赛场决策,这是赛事需要;另一方面,将掌握的数据运用到实况转播中,提升观赛的沉浸感,这是商业需求。为此,NFL创建了名为Next Gen Stats (NGS) 的程序来采集数据。
关键在于,如何运用这些宝贵的数据?美式橄榄球数据公司Pro Football Focus CEO、NBC体育解说员Cris Collinsworth就曾告诉界面新闻,“我们过去总让老派、学界的人来为体育赛事出主意,而教练则通过比赛录像来分析和指导运动员。”但效率之低下显而易见。
最终NFL选择与AWS合作,因为机器学习进入体育,意味着“思维方式的变化”,在效率和成本上均更优。借助SageMaker,可以更快速有效地给出数据分析结果。一个例子是,当NFL构建、训练和运行这些预测模型时,时间从 12 小时缩短到 30 分钟。
甚至比赛观赏性也提高到一种从未达到过的程度。借助Amazon QuickSight商业智能工具,NFL 能够在内部获得更深入的见解,同时还为球迷提供了与数据互动的机会。俱乐部、广播公司的人可以针对比赛,在面板上提问查询,并极快地获得回答。
来自客户惊喜的反馈并不让Swami Sivasupamanian意外,“SageMaker可以说是在AWS历史上发展最快的一个云服务。”他提到,在过去一年中AWS已经发布了超过50个SageMaker功能,目的就是让客户使用机器学习的过程更为容易。
回顾AWS在本次大会上SageMaker的功能发布,无论是数据特征提取器Data Wrangler,数据特征存储库Feature Store,还是自动化工作流Pipelines,都和Swami Sivasupamanian提出的降低机器学习难度的宗旨毫无偏离,甚至多数时候,还会让客户感到惊喜。
比如Data Wrangler,其内置了300多个数据转换器,让客户无需编写任何代码,就可以将机器学习用到的特征进行规范化、转换和组合,被称为“准备机器学习数据的最快、最简单的方法”。Pipelines是第一个专为机器学习构建的、方便易用的持续集成和持续交付服务。另外,大型复杂深度学习模型的分布式训练,可以将训练速度提升两倍。
不难发现,在AWS的努力下,SageMaker正在朝两个方向的迭代:一方面,机器学习每一个步骤做得越来越细、做得越来越易用;然后,将复杂机器学习的工作流给串联起来。比如,Data Wrangler的数据准备工作流程就可以与 Amazon SageMaker Pipelines 无缝集成,以便用户自动执行模型部署和管理。
这种串联和无缝集成一定程度上令人着迷,也为开发者打开了“新世界”。“实际上机器学习的工作流是可以被组织的,因为机器学习的流程中,要么有些步骤是串行的,一步一步走,要么有些步骤在某个环境下是可以并行的,但是它都可以被组织、被编排的。”顾凡说。
丰富且友好的机器学习工具在一定程度上加强了AWS上的用户粘性。相比于其他平台,AWS的机器学习工具链更加完善可靠,这意味着当用户考虑使用机器学习时,AWS总会在各种云服务可选项中脱颖而出。