岩芯数智推出自研通用大模型|transformer|大模型|岩芯数智|算法|自研通用

经济观察网记者黄一帆 随着大模型的爆火，传统的Transformer架构同时展现出计算复杂度高、成本压力大等问题，国际上已有Mamba、RWKV等非Transformer架构大模型引起关注，国内也诞生了基于新架构下的大模型。

1月24日，岩山科技（002195.SZ）旗下岩芯数智发布自研大模型“Yan模型”，打出的标签是“非Transformer架构”下的通用自然语言大模型。

岩山科技告诉记者，目前主流的大模型系列有三个：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。这三个系列都是基于Transformer架构衍生而来。国内的大模型基本延续了这三个系列，或是它们的一个子版本演变而来。

那么，在Transformer架构已成为人工智能领域主流架构的情况下，为什么岩芯数智还要另辟蹊径，转而构建非Transformer架构的大模型呢？

岩芯数智CEO刘凡平告诉记者，“Transformer架构的主要问题在于训练成本太高，交付成本也高，成本难以覆盖客户的付费，需要降低边际成本”。

刘凡平表示，在对Transformer模型不断地调研和改进过程中，公司意识到了重新设计大模型的必要性。“我们从早期的基于Transformer架构、改进Transformer架构，到放弃Transformer架构，这是一个漫长的过程”。

“Yan团队在三年前开始布局、落地非Transformer架构相关的事情。在这个过程中，行业也慢慢了解到Transformer架构机制有一些共性的缺陷，所以大家都会去研究有没有其他的算法去优化，甚至替代这个结构。”岩山科技常务副总经理、岩芯数智董事长陈代千表示，“我们基于此前的实践，确信非Transformer的路线是可行的”。

岩山科技告诉记者，岩芯数智推出的大模型在效率上，相较同等参数Transformer，拥有7倍训练效率、5倍推理吞吐和3倍记忆能力。

据了解，此次岩芯数智推出的是Yan1.0大模型，目前正在做Yan2.0版本。

刘凡平表示，在推出Yan1.0后，“今年会在商业化上面去工作，我们会和合作伙伴去共同推进一些项目建设”。

对于Yan2.0产品，陈代千表示，“它肯定不仅仅是现在以语言输入、文本输出等形式，它应该是比如计算机视觉、视频甚至数字信号等全模态的内容都可以输入，然后我的模型也能够以各种形态，比如说以文字吐出、语音合成或者视频、信号处理的方式吐回这个结果。我们想做的Yan 2.0，其实就是往这个方向走，做一个全模态的实时人机交互系统”。