打开网易新闻 查看精彩图片

SubQ的核心突破是SSA架构,思路简单到离谱:既然训练好的模型里,绝大多数注意力权重都接近0,那为啥还要算它们?

打开网易新闻 查看精彩图片

SSA的操作是:对每个query,根据内容动态选择真正值得关注的位置,只在这些位置精确计算注意力。说白了,就是跳过99%以上的无用交互,只做有意义的计算。它有三个关键特性:

内容依赖路由:不管关键信息在第3个还是第1100万个Token,都能精准找到;

精确检索:不像循环模型压缩信息,SSA能从任意位置取回精确内容。

这不是“把密集注意力算得更快”,而是“让模型少做无用功”——减少的计算量直接变成速度和成本优势。

SubQ放出的每一组数据都像暴击:

100万Token下,SSA比FlashAttention-2快52.2倍,注意力FLOP减少62.5倍;1200万Token时,计算量砍近1000倍。成本对比更夸张:RULER 128K测试中,SubQ花8美元,Opus要2600美元,差了300倍!

最关键的是,这些优势没牺牲准确率:

RULER 128K:SubQ 95% vs Opus 4.6的94.8%;

SWE-Bench代码测试:SubQ 81.8分超过Opus的80.8;

一家种子轮小公司,用不到Opus 5%的成本,在核心测试上打平甚至超过OpenAI、Anthropic的旗舰模型——这事儿细思极恐!

打开网易新闻 查看精彩图片

SubQ发布几小时内,AI社区直接分成两派。支持者说:“这是2026年最疯狂的AI发布,可能就是奥特曼说的架构突破!”怀疑派则骂:“这就是AI版Theranos,看完创始人领英更确定是骗子!”

OpenAI前研究员Will Depue更是连发多条质疑:“SubQ几乎肯定是基于Kimi或DeepSeek的稀疏注意力微调。”毕竟AI圈见过太多“发布即巅峰”的故事,PPT和真实部署之间隔着死亡谷。

但不管怎样,这个赌注太大了——如果SubQ是真的,Transformer的时代可能真的要结束了;如果是假的,又是一场AI圈的闹剧。

现在所有人都在等:技术报告公开、独立benchmark复现。但不管结果如何,SubQ的出现已经给AI圈敲响了警钟——Transformer的统治不是不可动摇的。

你觉得SubQ是Transformer的终结者,还是又一个PPT骗局?评论区留下你的看法,转发给身边搞AI的朋友,看看他们怎么说!毕竟这事儿,可能改变整个AI行业的未来。