13人团队SSA架构算力暴降千倍，成本仅Opus，5%

命运自认幽默

2026-05-09 21:22 ·四川

SubQ的核心突破是SSA架构，思路简单到离谱：既然训练好的模型里，绝大多数注意力权重都接近0，那为啥还要算它们？

SSA的操作是：对每个query，根据内容动态选择真正值得关注的位置，只在这些位置精确计算注意力。说白了，就是跳过99%以上的无用交互，只做有意义的计算。它有三个关键特性：

内容依赖路由：不管关键信息在第3个还是第1100万个Token，都能精准找到；

精确检索：不像循环模型压缩信息，SSA能从任意位置取回精确内容。

这不是“把密集注意力算得更快”，而是“让模型少做无用功”——减少的计算量直接变成速度和成本优势。

SubQ放出的每一组数据都像暴击：

100万Token下，SSA比FlashAttention-2快52.2倍，注意力FLOP减少62.5倍；1200万Token时，计算量砍近1000倍。成本对比更夸张：RULER 128K测试中，SubQ花8美元，Opus要2600美元，差了300倍！

最关键的是，这些优势没牺牲准确率：

RULER 128K：SubQ 95% vs Opus 4.6的94.8%；

SWE-Bench代码测试：SubQ 81.8分超过Opus的80.8；

一家种子轮小公司，用不到Opus 5%的成本，在核心测试上打平甚至超过OpenAI、Anthropic的旗舰模型——这事儿细思极恐！

SubQ发布几小时内，AI社区直接分成两派。支持者说：“这是2026年最疯狂的AI发布，可能就是奥特曼说的架构突破！”怀疑派则骂：“这就是AI版Theranos，看完创始人领英更确定是骗子！”

OpenAI前研究员Will Depue更是连发多条质疑：“SubQ几乎肯定是基于Kimi或DeepSeek的稀疏注意力微调。”毕竟AI圈见过太多“发布即巅峰”的故事，PPT和真实部署之间隔着死亡谷。

但不管怎样，这个赌注太大了——如果SubQ是真的，Transformer的时代可能真的要结束了；如果是假的，又是一场AI圈的闹剧。

现在所有人都在等：技术报告公开、独立benchmark复现。但不管结果如何，SubQ的出现已经给AI圈敲响了警钟——Transformer的统治不是不可动摇的。

你觉得SubQ是Transformer的终结者，还是又一个PPT骗局？评论区留下你的看法，转发给身边搞AI的朋友，看看他们怎么说！毕竟这事儿，可能改变整个AI行业的未来。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴