迈阿密 AI 初创公司Subquadratic上个月走出隐身状态,带着一个很大的说法亮相:它声称解决了一个困扰大语言模型近十年的数学瓶颈。
细节寥寥,很多人不信。Subquadratic 拿证据一一回应:他们公布了一份独立评估结果,至少从结果看,这家公司说的也许真值得当回事。
Subquadratic 说自己开发了一种新型大语言模型 SubQ,比市面上所有模型都更快、更便宜、更省电。公司还说SubQ一次能处理的文本量是大多数模型的 12 倍,可以同时分析几百份文档或一整个代码库。
更重要的是,Subquadratic 说 SubQ 在编程等关键任务上的水平基本能追上 Google DeepMind、OpenAI 和Anthropic的顶尖模型。
然而,除了公司最初举证的几个分数,几乎没提供别的证据,SubQ 也没有开放试用。
所以一片质疑并不意外。AI 工程师丹·麦卡蒂尔(Dan McAteer)在 X 上的一句话基本说出了所有人的心声:“SubQ 要么是 Transformer 以来最大的突破……要么是 AI 版 Theranos。”
一个月后,公司补上了更多信息,包括第三方机构Appen做的测试结果。“质疑在我们意料之中,”Subquadratic 联合创始人兼 CTO 亚历克斯·惠顿(Alex Whedon)说,“现在回想,第一次发布时就应该把第三方测试一起放出来。以后我们会确保所有结果都验证过了再发。”
Appen 是一家专门评估 AI 模型的公司。Subquadratic 请它测了 SubQ,结果基本站在了公司这边。“看到数据我很兴奋,它验证了他们的架构,”Appen 生成式 AI 研究总监珍妮·西纳南-辛格(Jeanine Sinanan-Singh)说。
“我当时想,这东西可能真是一个 game changer——模型在速度和效率上一直有瓶颈嘛,”她补充说,“但结果好得这么离谱,自己说出来说服力就差了。”
SubQ 不会在所有任务上取代现有顶级模型,但在某些场景下它可能以极低成本实现巨大的速度提升。Subquadratic 认为长远来看,这项突破可能改变大语言模型的造法。“我们希望自己正在开启一个效率新时代,”联合创始人兼 CEO 贾斯汀·丹格尔(Justin Dangel)说,“我们觉得几年之后没人还会在 Transformer 上面造模型。”
注意力!
要理解 Subquadratic 的说法为什么重要,先得知道大语言模型是怎么工作的。LLM的核心是一种叫 Transformer 的神经网络,核心操作叫“稠密注意力”(dense attention)。今天的 LLM 通常把好几个 Transformer 串在一起用。2017 年 Google 研究者发表的那篇开创 LLM 时代的论文,标题就叫《注意力就是你所需要的一切(Attention is all you need)》。
稠密注意力的原理是这样的:Transformer 拿到一段文本后,先给每个词(或词的一部分,叫 token)编上一个数字。为了理解整段话的含义,它要把这些数字两两相乘——每一个跟其他所有的都乘一遍。一段 10000 词的文本,光乘法就要做将近 5000 万次。计算量惊人,这也是 LLM 出了名费电的根本原因。
“你想给《了不起的盖茨比》做个摘要,你得把第一个词和最后一个词放在一起看,中间每一种组合也不能落下。”丹格尔说。
文本越长,计算量涨得越猛。每多一个词就要跟前面所有词各乘一次。词数翻倍,计算量大约翻四倍。这种增长方式叫二次方扩展。
砍成本
Subquadratic 的做法是把稠密注意力扔了,换成“稀疏注意力”(sparse attention),计算量一下子砍掉一大截。稀疏注意力不再把每个 token 跟所有其他 token 都乘一遍,而是只挑一部分来乘。道理很简单:一段文本里并不是所有词和词之间的关系都重要。
“稀疏注意力就是承认这一点:那些关系不全都重要,因为它们确实不全都重要,”惠顿说,“你读一本书不可能从第一个词开始跟第二个词配对、跟第三个词配对——那是疯了。”
思路简单,也不是 Subquadratic 第一个想到的。“你能想到的招基本都有人试过了,”独立 AI 研究者、前 OpenAI 员工威尔·德普(Will Depue)说,“不是不可能,但极其困难,试过的人很多,做到的一个都没有。”
以前的方案都卡在同一个地方:选出来的乘法组合理解文本含义的效果,始终比不上稠密注意力那种全部乘一遍的笨办法。
Subquadratic 说它终于做到了。SubQ 是第一个在性能上能追平主流稠密注意力模型的稀疏注意力 LLM。
“以前大多数方案用的是死规矩,比如永远把第一个词跟第五个词放一起比,”惠顿说,“太死板了。语言哪有这么简单。我们跟别人不一样的地方是:哪些词重要,我们让模型自己判断,实时决定。
具体怎么判断的,公司拒绝透露。每段不同的文本,选出来的重点词都不一样,选择过程是实时算出来的。“这就是我们的杀手锏。”惠顿说。
测测看
说了这么多,效果到底怎样?Appen 用几项基准测试跑了一遍。先测纯速度,看模型理论上能跑多快,不管它能干什么。结果 SubQ 比使用 FlashAttention(一种此前的稀疏注意力技术)的模型快 56 倍。
再测编程能力。LiveCodeBench 这个测试用的是真实编程竞赛的题目,SubQ 拿了 89.7%,跟其他顶尖编程模型在同一档。“这个模型在编程上持续保持前沿水平。”Appen 的西纳南-辛格说。
成本方面的说法比较难验证,因为 SubQ 还没大范围开放。丹格尔说让 Anthropic 的 Opus 4.6 跑一遍 RULER 128(Nvidia 设计的一个测试,看模型从大数据集中检索信息的能力)要花 2600 美元。SubQ 呢?“我们花了 8 美元。”
SubQ 处理超大数据集的能力看起来确实强。它的上下文窗口(可以粗略理解为工作记忆)最长 1200 万个 token,目前大多数顶级模型是 100 万。惠顿给我做了个演示:让 SubQ 从 400 份文档中提取信息并做推理,几秒钟出结果。同样的任务交给 Perplexity(一个流行的 LLM 搜索引擎),它连 400 份文档都加载不完。
Appen 还跑了“大海捞针”测试——看模型能不能从海量数据中找到一条特定信息。SubQ 在 600 万和 1200 万 token 的上下文窗口下都拿了 98%。Appen 的报告说它“在极少有模型被测试过的规模上保持了近乎完美的检索能力”。
分数再高,基准测试也只能画出模型能力的局部图。在特定条件下跑出来的好成绩,不等于在各种真实场景下都好用。
Subquadratic 把 SubQ 定位为编程和超大数据集搜索的专用模型。公司说已有数万人注册了早期使用权,包括 500 多家企业客户。但排队的人很多,真正用上的很少。Subquadratic 的解释是公司太新、太小、人手不够,一次服务不了那么多人。
没有更多人亲手试过之前,保持怀疑是合理的。有一个点让人犯嘀咕:Subquadratic 搭建 SubQ 时复用了开源模型通义千问(Qwen)一个版本的权重(训练过程中确定下来的参数值,决定模型怎么表现),不是从头训练的。这在模型开发中很常见,但跟 Subquadratic “彻底重新发明了 LLM 工作方式”的说法不太搭。
“他们也许确实造出了一个有用的东西,”德普说,“但就目前公开的证据来看,还不足以支撑那个更大的声明:说他们已经解决了二次方注意力瓶颈。”
惠顿坚持说走一条不一样的路是他唯一的选择。要造一个有竞争力的模型,就得有新想法:“我们比 OpenAI 更输不起。”
https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/
热门跟贴