不用GPU也能训练大模型?这家AI初创企业首推非Attention机制大模型

企业新闻10个月前发布 aixure
69 0 0
导读:《科创板日报》1月30日讯(记者 张洋洋) 在Transformer占大模型架构主流的背景下,国内一家AI初创企业正在试图撼动前者的主导地位。 近期, 岩山科技旗下的AI初创公司岩芯数智发布了国内首个非Attention机制的大模型Yan,这是业内少有的非Transformer架构大…

《科创板日报》1月30日讯(记者 张洋洋)在Transformer占大模型架构主流的背景下,国内一家AI初创企业正在试图撼动前者的主导地位。

近期,岩山科技旗下的AI初创公司岩芯数智发布了国内首个非Attention机制的大模型Yan,这是业内少有的非Transformer架构大模型。

Transformer是一种基于注意力机制的神经网络架构,也是当今自然语言处理领域的主流模型架构,它可以处理序列数据,提高翻译、识别等任务的效果。

目前,主流的大模型系列有三个:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。国内的大模型基本都延续了这三个系列,或是它们的一个子版本演变而来。

而上述三个系列都是基于Transformer架构衍生而来,成为大模型的支柱。

岩芯数智CEO刘凡平在接受《科创板日报》采访时表示,Yan是一个通用大语言模型,采用的是公司自研的“Yan架构”,拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力,同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。

之所以要另辟蹊径,刘凡平称,主要是标准的Transformer架构模型,算力消耗,训练成本太高,交付成本也高,成本难以覆盖客户的付费,不少中小型企业望而却步,“这种情况下,如果一直做下去,我们做一单亏一单”。

面临算力耗费高、数据需求大等问题,因此岩芯数智从技术上放弃了Transformer架构和Attention机制。

对于Yan模型的落地周期和成本,刘凡平告诉记者,一个是缩短和客户的沟通时间、减少客户的理解成本,一般需求阶段够会在1-2个月,通过Yan架构,1个月以内已经可以出为客户私有化模型;另一方面,项目成本会降低,例如300万合同的项目可以降低到260万左右,但是利润不一定是下降了。

就业内共识而言,大模型竞赛已经从“卷参数”的时代过渡到了“卷应用”的阶段,行业对于通用大模型的需求亟待解决,故而许多大模型会通过剪枝、压缩等主流技术手段来实现在设备上的运行。

岩芯数智董事长陈代千在接受《科创板日报》采访时表示,之后会做到训推一体,希望Yan能够在CPU甚至在手机芯片上都能做训练,做推理,能在端侧设备上做一些私有化的部署。

刘凡平还透露,岩芯数智第四代大模型Y2.0已经在路上,这是一个全模态的大模型架构,目标是要全面打通感知、认知、决策与行动,构建通用人工智能的智能循环,期望未来能做一个通用人工智能操作系统。

(科创板日报记者 张洋洋)

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...