亚马逊自研云端AI训练芯片来了！明年下半年投入使用

企业新闻1年前 (2023)发布 aixure

67 0 0

导读：芯东西（公众号：aichip001）编译| 林卓玮编辑| 江心白芯东西12月3日消息，亚马逊本周推出了自研云端AI训练定制芯片AIAWS Trainium，称其能显著降低训练成本。据悉，相较基于英特尔AI训练芯片Habana Gaudi的亚马逊Elastic Compute Cloud（EC2）实例，基…

芯东西（公众号：aichip001）

编译| 林卓玮

编辑| 江心白

芯东西12月3日消息，亚马逊本周推出了自研云端AI训练定制芯片AIAWS Trainium，称其能显著降低训练成本。

据悉，相较基于英特尔AI训练芯片Habana Gaudi的亚马逊Elastic Compute Cloud（EC2）实例，基于AWS这款AI训练芯片的云端实例在可用性方面更为领先。

从2021年下半年起，Trainium将搭载于EC2实例和亚马逊完全托管机器学习开发平台SageMaker上，同时还将支持谷歌的TensorFlow、脸书的PyTorch和MxNet等主流框架。

▲在AWS re:Invent 2020大会上，亚马逊推出了自产芯片AWS Trainium。

一、结合Inferentia：吞吐量提高30%，推断成本降低45%

亚马逊声称，Trainium的万亿次浮点运算能力是目前云上机器学习实例中最强的。与标准AWS GPU实例相比，Trainium将吞吐量提高30％，将每次推断成本降低45％。

此外，亚马逊表示将使用与其自研云端AI推理芯片Inferentia相同的Neuron SDK。Neuron SDK是用于机器学习推理的云托管芯片。

“推理成本通常占据机器学习基础架构成本的90%，Inferentia主要攻克了这部分的成本问题，不过许多开发团队仍受到固定机器学习训练预算的限制，” AWS官方博客中写道，“开发团队通常难以达到改善模型应用所需的训练规模和强度。”

通过将Trainium和Inferentia结合起来，AWS为客户提供了端到端的机器学习计算流程，在扩展训练量的同时，还加快了推理流程。