“四年前成立Graphcore时,我们认识到了机器智能飞快的发展速度以及它所能企及的成就并有幸与人工智能领域的许多领先创新者合作,然而在合作过程中,工作受到了当前硬件的桎梏。”Graphcore联合创始人兼首席执行官Nigel Toon在中关村论坛上发表演讲时表示,CPU和GPU并非为AI计算完全不同的需求而设计,虽然它们可以构建第一波AI解决方案,但显而易见的是,当今的架构无法扩展以及支持引领我们进入未来所需的更为复杂的模型和技术。
人类的进步总是与新工具的创造齐头并进,这一点在机器智能时代也不会改变。因此,在技术进步的驱动下智能处理器IPU应运而生,它的出现旨在支持机器智能的新计算需求。“在Graphcore的第一代IPU产品中,其1200多个处理器内核可以分别处理完成独立的任务,并且能够彼此通信以支持完整的多指令多数据并行操作,这正是下一代机器智能的基本要求。”
Graphcore联合创始人兼首席执行官Nigel Toon
作为一家英国公司,在创业初期,Graphcore就受到了来自ARM联合创始人Hermann Hauser和Deepmind联合创始人Demis Hassabis的青睐和关注。随着业务的增长,Graphcore吸引了很多全球知名的投资者的支持(如Atomico、红杉资本),以及很多战略投资者的支持(如宝马、博世、戴尔、微软、三星等)。
据了解,目前Graphcore总共融资额超过4.5亿美金,现存超过2.5亿美金的现金。
在业务层面,Graphcore更是凭借着首款IPU系统震惊了整个行业该系统的性能大大超越了其他技术,包括目前最快的GPU。
“我们的一位早期客户,Carmot Capital在使用我们的产品训练其金融市场预测模型时,性能提升了26倍。微软在使用IPU帮助诊断肺炎和COVID-19的胸部X光影像时,速度提高了10倍,并且其准确性大大超过GPU。”Nigel Toon认为,即使性能只提高2倍,也足以改变竞争格局。微软作为Graphcore的一位早期合作者,不仅将Graphcore的IPU技术用于其内部的AI工作负载,在去年11月还将Graphcore的IPU提供给其Azure云计算平台的用户,助力AI创新者的工作。
2020年7月,Graphcore推出第二代IPU(Mk2 IPU)第二代IPU拥有594亿个晶体管,1472个完全并行的处理器内核,以及近1 GB的超高速处理器内存储。同时,Graphcore还推出了IPU-Machine:M2000(IPU-M2000)。这是一款易于部署的即插即用的机器智能计算刀片,能够提供1PFLOP的AI计算能力,并通过专用IPU内置AI横向扩展网络架构。
对于AI创新公司来说,不论是需要通过一个IPU-M2000来组建独立系统,还是随着计算负载和算法模型复杂度的增加,需要4个、8个IPU-M2000来扩展计算系统,他们都可以进行灵活的调整。基于该技术,Graphcore构建起一个大规模可扩展的IPU-Pod系统,可以支持64000个IPU集群。
若将8个DGX A100和8个IPU-M2000进行比较,8个IPU-M2000能够提供8个DGX A100的12倍以上的FP12算力、3倍以上的AI算力和10倍以上的存储,同时IPU-M2000还具有更高的性价比。凭借着这款全新的二代IPU处理器,Graphcore再次定义了行业标准。
此外,为了构建高效的AI计算集群,Graphcore为AI设计了IPU-Fapic横向扩展技术,提供了2.8 Tbps的超低时延网络结构,能够支持从1个IPU到64000个IPU之间高弹性的横向扩展。无论IPU数量是几个还是上万个,IPU之间互联的带宽时延均能保持一致,通过直连或以太网交换机的连接方式,可以执行集合和全缩减(All-Reduce)的操作。
Graphcore高级副总裁兼中国区总经理 卢涛
“Graphcore从零设计了以计算图(Graph)为核心的Poplar SDK,能够方便用户无论使用单个IPU-M2000、单张PCIe卡,还是1000个甚至上万个IPU,都能获得完全一致的用户体验。”Graphcore高级副总裁兼中国区总经理卢涛表示,用户可以基于Poplar构建下一代机器智能系统。Poplar SDK包含一个开放且高度可扩展的Poplar库,为开发者提供750个以上的高性能计算元素和50多种优化功能,开发者可以自行修改或编写自己的自定义库。此外,Poplar支持各类行业标准的机器学习系统以及部署和集群管理生态系统。通过Poplar SDK,开发者能够预制Docker容器、快速进行部署。
目前,Graphcore IPU支持近50个不同的算法模型。作为通用计算架构,IPU支持TensorFlow、PyTorch等开放机器学习框架及各类算法模型的落地。
对于创新者而言,成本和效率不一定是其最关心的因素。但若创新者使用的技术不是从根本上为AI构建,那么就存在着收益递减的情况。
数据显示,2019年发布的OpenAI的GPT-2自然语言模型有15亿个参数,2020年发布的GPT-3有1750亿个。训练和部署模型所需的计算量正按幂律增长,但是数十亿个参数显然不够。
当创新者需要取得新的突破时,这意味着他们需要把注意力集中在值得关注的领域,以及在使用稀疏激活的模型子组上进行计算,这可以把效率提高几个数量级。然而这种稀疏计算并不适用于GPU。
“这正是IPU所要实现的目标,Graphcore的系统在训练和部署中可以支持具备高效稀疏计算的大型模型。IPU不仅可以推动创新开发,还可以有效部署这些新型模型,更高效的计算可以降低总拥有成本。用户可以在训练和推理中使用相同的IPU硬件,且可以灵活机动地更改每个CPU调用IPU的数量。”卢涛表示,“用户需要全新的处理器架构来支持AI创新者的探索和突破。更重要的是,Graphcore希望将创新的权利交给AI开发者。”
随着模型规模和数据量的增加,开发者需要一个高效的AI计算集群来支持创新。此外,Graphcore还提供了开源的AI处理器软件代码库。“因为将代码的控制权移交给AI开发者是非常重要的。”
值得一提的是,早在今年7月份,Graphcore就开放了PopLibs的源代码,方便AI开发者修改、优化、创新。同时,Graphcore也在大力发展IPU开发者社区,其中很重要的一部分是目前已在国内上线的IPU开发者云其托管在金山云上,提供浪潮IPU服务器NF5568M5、戴尔IPU服务器DSS8440、以及IPU-Pod64这些不同机型。
另外,Graphcore注重本地创新支持。Graphcore的IPU开发者云以及Graphcore中国创新社区使创新者能便捷地获取和使用IPU。
写在最后
当前,Graphcore的业务主要分为三部分:专为AI从零设计的IPU处理器、Poplar SDK和开发工具以及IPU平台(如IPU-Machine、可以通过浪潮和戴尔来购买的IPU服务器,以及可大规模横向扩展的IPU-Pod64)。
IPU在超大规模数据中心及互联网、高校及研究机构、医疗及生命科学、金融、汽车这五大领域中发展较快并备受关注。到目前为止,Graphcore共发货IPU处理器超一万台、服务全球超100家不同机构。
“Graphcore有一个中国名字‘拟未’,我们正尽可能快地壮大中国团队,以便在技术或任何问题上为客户提供完全本地化的响应和支持。”Nigel Toon表示,Graphcore的目标是将拟未打造成一家重要的中国公司。
从市场情况看,中国的AI市场体量和落地速度位于全球前列。更重要的是,中国比大多数国家都更了解如何从创新转向应用、在概念阶段投入正确的技术和资源以及如何从概念阶段转移到动态生产阶段,这使得中国成为制造业的先锋者,尤其是在高科技领域。
“Graphcore正紧锣密鼓地与国内合作伙伴进行落地的相关工作,我们对明年有非常高的预期。”卢涛透露,“高校合作方面,在IPU开发者云上线后,Graphcore已收到约三、四十所高校顶尖AI实验室或研究机构的使用申请。”