13人团队叫板Anthropic：我们造了一个更快更便宜的大模型|上下文|新论文|神经网络|编程|计算量

迈阿密 AI 初创公司Subquadratic上个月走出隐身状态，带着一个很大的说法亮相：它声称解决了一个困扰大语言模型近十年的数学瓶颈。

细节寥寥，很多人不信。Subquadratic 拿证据一一回应：他们公布了一份独立评估结果，至少从结果看，这家公司说的也许真值得当回事。

Subquadratic 说自己开发了一种新型大语言模型 SubQ，比市面上所有模型都更快、更便宜、更省电。公司还说SubQ一次能处理的文本量是大多数模型的 12 倍，可以同时分析几百份文档或一整个代码库。

更重要的是，Subquadratic 说 SubQ 在编程等关键任务上的水平基本能追上 Google DeepMind、OpenAI 和Anthropic的顶尖模型。

然而，除了公司最初举证的几个分数，几乎没提供别的证据，SubQ 也没有开放试用。

所以一片质疑并不意外。AI 工程师丹·麦卡蒂尔（Dan McAteer）在 X 上的一句话基本说出了所有人的心声：“SubQ 要么是 Transformer 以来最大的突破……要么是 AI 版 Theranos。”

一个月后，公司补上了更多信息，包括第三方机构Appen做的测试结果。“质疑在我们意料之中，”Subquadratic 联合创始人兼 CTO 亚历克斯·惠顿（Alex Whedon）说，“现在回想，第一次发布时就应该把第三方测试一起放出来。以后我们会确保所有结果都验证过了再发。”

Appen 是一家专门评估 AI 模型的公司。Subquadratic 请它测了 SubQ，结果基本站在了公司这边。“看到数据我很兴奋，它验证了他们的架构，”Appen 生成式 AI 研究总监珍妮·西纳南-辛格（Jeanine Sinanan-Singh）说。

“我当时想，这东西可能真是一个 game changer——模型在速度和效率上一直有瓶颈嘛，”她补充说，“但结果好得这么离谱，自己说出来说服力就差了。”

SubQ 不会在所有任务上取代现有顶级模型，但在某些场景下它可能以极低成本实现巨大的速度提升。Subquadratic 认为长远来看，这项突破可能改变大语言模型的造法。“我们希望自己正在开启一个效率新时代，”联合创始人兼 CEO 贾斯汀·丹格尔（Justin Dangel）说，“我们觉得几年之后没人还会在 Transformer 上面造模型。”

注意力！

要理解 Subquadratic 的说法为什么重要，先得知道大语言模型是怎么工作的。LLM的核心是一种叫 Transformer 的神经网络，核心操作叫“稠密注意力”（dense attention）。今天的 LLM 通常把好几个 Transformer 串在一起用。2017 年 Google 研究者发表的那篇开创 LLM 时代的论文，标题就叫《注意力就是你所需要的一切（Attention is all you need）》。

稠密注意力的原理是这样的：Transformer 拿到一段文本后，先给每个词（或词的一部分，叫 token）编上一个数字。为了理解整段话的含义，它要把这些数字两两相乘——每一个跟其他所有的都乘一遍。一段 10000 词的文本，光乘法就要做将近 5000 万次。计算量惊人，这也是 LLM 出了名费电的根本原因。

“你想给《了不起的盖茨比》做个摘要，你得把第一个词和最后一个词放在一起看，中间每一种组合也不能落下。”丹格尔说。

文本越长，计算量涨得越猛。每多一个词就要跟前面所有词各乘一次。词数翻倍，计算量大约翻四倍。这种增长方式叫二次方扩展。

砍成本

Subquadratic 的做法是把稠密注意力扔了，换成“稀疏注意力”（sparse attention），计算量一下子砍掉一大截。稀疏注意力不再把每个 token 跟所有其他 token 都乘一遍，而是只挑一部分来乘。道理很简单：一段文本里并不是所有词和词之间的关系都重要。

“稀疏注意力就是承认这一点：那些关系不全都重要，因为它们确实不全都重要，”惠顿说，“你读一本书不可能从第一个词开始跟第二个词配对、跟第三个词配对——那是疯了。”

思路简单，也不是 Subquadratic 第一个想到的。“你能想到的招基本都有人试过了，”独立 AI 研究者、前 OpenAI 员工威尔·德普（Will Depue）说，“不是不可能，但极其困难，试过的人很多，做到的一个都没有。”

以前的方案都卡在同一个地方：选出来的乘法组合理解文本含义的效果，始终比不上稠密注意力那种全部乘一遍的笨办法。

Subquadratic 说它终于做到了。SubQ 是第一个在性能上能追平主流稠密注意力模型的稀疏注意力 LLM。

“以前大多数方案用的是死规矩，比如永远把第一个词跟第五个词放一起比，”惠顿说，“太死板了。语言哪有这么简单。我们跟别人不一样的地方是：哪些词重要，我们让模型自己判断，实时决定。

具体怎么判断的，公司拒绝透露。每段不同的文本，选出来的重点词都不一样，选择过程是实时算出来的。“这就是我们的杀手锏。”惠顿说。

测测看

说了这么多，效果到底怎样？Appen 用几项基准测试跑了一遍。先测纯速度，看模型理论上能跑多快，不管它能干什么。结果 SubQ 比使用 FlashAttention（一种此前的稀疏注意力技术）的模型快 56 倍。

再测编程能力。LiveCodeBench 这个测试用的是真实编程竞赛的题目，SubQ 拿了 89.7%，跟其他顶尖编程模型在同一档。“这个模型在编程上持续保持前沿水平。”Appen 的西纳南-辛格说。

成本方面的说法比较难验证，因为 SubQ 还没大范围开放。丹格尔说让 Anthropic 的 Opus 4.6 跑一遍 RULER 128（Nvidia 设计的一个测试，看模型从大数据集中检索信息的能力）要花 2600 美元。SubQ 呢？“我们花了 8 美元。”

SubQ 处理超大数据集的能力看起来确实强。它的上下文窗口（可以粗略理解为工作记忆）最长 1200 万个 token，目前大多数顶级模型是 100 万。惠顿给我做了个演示：让 SubQ 从 400 份文档中提取信息并做推理，几秒钟出结果。同样的任务交给 Perplexity（一个流行的 LLM 搜索引擎），它连 400 份文档都加载不完。

Appen 还跑了“大海捞针”测试——看模型能不能从海量数据中找到一条特定信息。SubQ 在 600 万和 1200 万 token 的上下文窗口下都拿了 98%。Appen 的报告说它“在极少有模型被测试过的规模上保持了近乎完美的检索能力”。

分数再高，基准测试也只能画出模型能力的局部图。在特定条件下跑出来的好成绩，不等于在各种真实场景下都好用。

Subquadratic 把 SubQ 定位为编程和超大数据集搜索的专用模型。公司说已有数万人注册了早期使用权，包括 500 多家企业客户。但排队的人很多，真正用上的很少。Subquadratic 的解释是公司太新、太小、人手不够，一次服务不了那么多人。

没有更多人亲手试过之前，保持怀疑是合理的。有一个点让人犯嘀咕：Subquadratic 搭建 SubQ 时复用了开源模型通义千问（Qwen）一个版本的权重（训练过程中确定下来的参数值，决定模型怎么表现），不是从头训练的。这在模型开发中很常见，但跟 Subquadratic “彻底重新发明了 LLM 工作方式”的说法不太搭。

“他们也许确实造出了一个有用的东西，”德普说，“但就目前公开的证据来看，还不足以支撑那个更大的声明：说他们已经解决了二次方注意力瓶颈。”

惠顿坚持说走一条不一样的路是他唯一的选择。要造一个有竞争力的模型，就得有新想法：“我们比 OpenAI 更输不起。”

https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/