打开网易新闻 查看精彩图片

经济观察网 记者 黄一帆 随着大模型的爆火,传统的Transformer架构同时展现出计算复杂度高、成本压力大等问题,国际上已有Mamba、RWKV等非Transformer架构大模型引起关注,国内也诞生了基于新架构下的大模型。

1月24日,岩山科技(002195.SZ)旗下岩芯数智发布自研大模型“Yan模型”,打出的标签是“非Transformer架构”下的通用自然语言大模型。

岩山科技告诉记者,目前主流的大模型系列有三个:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。这三个系列都是基于Transformer架构衍生而来。国内的大模型基本延续了这三个系列,或是它们的一个子版本演变而来。

那么,在Transformer架构已成为人工智能领域主流架构的情况下,为什么岩芯数智还要另辟蹊径,转而构建非Transformer架构的大模型呢?

岩芯数智CEO刘凡平告诉记者,“Transformer架构的主要问题在于训练成本太高,交付成本也高,成本难以覆盖客户的付费,需要降低边际成本”。

刘凡平表示,在对Transformer模型不断地调研和改进过程中,公司意识到了重新设计大模型的必要性。“我们从早期的基于Transformer架构、改进Transformer架构,到放弃Transformer架构,这是一个漫长的过程”。

“Yan团队在三年前开始布局、落地非Transformer架构相关的事情。在这个过程中,行业也慢慢了解到Transformer架构机制有一些共性的缺陷,所以大家都会去研究有没有其他的算法去优化,甚至替代这个结构。”岩山科技常务副总经理、岩芯数智董事长陈代千表示,“我们基于此前的实践,确信非Transformer的路线是可行的”。

岩山科技告诉记者,岩芯数智推出的大模型在效率上,相较同等参数Transformer,拥有7倍训练效率、5倍推理吞吐和3倍记忆能力。

据了解,此次岩芯数智推出的是Yan1.0大模型,目前正在做Yan2.0版本。

刘凡平表示,在推出Yan1.0后,“今年会在商业化上面去工作,我们会和合作伙伴去共同推进一些项目建设”。

对于Yan2.0产品,陈代千表示,“它肯定不仅仅是现在以语言输入、文本输出等形式,它应该是比如计算机视觉、视频甚至数字信号等全模态的内容都可以输入,然后我的模型也能够以各种形态,比如说以文字吐出、语音合成或者视频、信号处理的方式吐回这个结果。我们想做的Yan 2.0,其实就是往这个方向走,做一个全模态的实时人机交互系统”。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。

打开网易新闻 查看精彩图片

黄一帆经济观察报记者

华东新闻中心记者
关注上市公司的资本运作和资本市场中所发生的好玩的事,对未知事物充满好奇,对已知事物挖掘未知面。
关注领域:上市公司、券商、新三板。擅长深度报道。