只需几个抽象符号替代思维链，就能将推理成本压缩11倍|序列|思维链|抽象符号|推理|数学|自然

来源：市场资讯

（来源：机器之心）

编辑｜Panda

2026 年，AI 行业正在经历一场悄然发生的费用危机。

在大多数开发者的印象里，AI 模型的成本在过去几年里一路走低。确实，从 2022 年到 2024 年，前沿模型的推理成本下降了超过千倍。这个趋势让许多团队相信，把 AI 部署进产品只是时间问题。

然而，推理模型的出现打破了这一预期。OpenAI 的 o 系列、Anthropic 的 Claude Extended Thinking、DeepSeek R1—— 这些模型在生成最终回答之前，会先在内部进行大量「思考」，产生数以千计的中间推理步骤，然后再吐出最终答案。这些中间步骤在账单上有个专门的名字：推理token（reasoning tokens）。

问题在于，你得为这些思考过程买单，即便你根本看不到它们。

根据行业研究机构在 2026 年初的统计，一个复杂的代码审查任务，如果使用推理模型，费用可能是普通模型的 5 到 10 倍。一次多步骤规划任务，内部思考步骤消耗的 token 数量，有时会超过一万个。有团队测试发现，让 Claude Opus 4.6 和 Grok-4 分别回答同一个问题时，两者给出了完全相同的答案，但 Grok-4 消耗的 token 数量是 Claude 的两倍多，成本差距接近 10 倍。这一切，仅仅因为模型想得太多。

换句话说，AI 正在为了「把话说清楚」而付出巨大代价。

而这种代价，在某种程度上是设计使然。现有的主流推理模型，都依赖一种叫做「思维链（CoT）」的机制：让模型像人类一样，用自然语言一步步写出推理过程，然后再给出答案。这种方法行之有效，但用自然语言推理，天然就是冗长的。

就在这个背景下，IBM Research 的一个团队发布了一篇论文。他们提出了一个问题：如果 AI 根本不需要用人类语言来思考，会怎样？

论文标题：Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought
论文地址：https://arxiv.org/pdf/2604.22709

抽象推理链

一门人类看不懂的语言

IBM Research 的论文将这一方法命名为 Abstract Chain-of-Thought（抽象推理链，简称 Abstract-CoT）。

核心思路出人意料地简洁：与其让模型用自然语言写下推理过程，不如给它一套全新的「符号词汇表」，让它用这些符号来思考，然后直接生成答案。

这套词汇表里没有任何一个人类能读懂的单词。它由一组特殊的占位符 token 组成，比如、…… 一直到，之后继续用双字母扩展。这些符号对人类来说毫无意义，就像密码一样。但在论文的实验结果中，它们能够替代动辄数百步的自然语言推理链，把推理步骤压缩到几十个符号以内。

如果用一个生活中的类比来理解：这有点像一个经验丰富的厨师，不再需要把每一步操作都大声说出来，而是靠一套只有自己理解的手势和记号，在脑子里飞速完成全部计算，然后直接把菜端上桌。对于外人而言，这个过程是不透明的；但结果，一模一样。

在论文展示的一个例子中，一道数学应用题，标准思维链模型需要走完 8 个自然语言步骤才能得出答案；而 Abstract-CoT 版本，只用了 14 个抽象符号，便得出了完全相同的结论。这两个过程都正确，但后者消耗的推理 token 数量，不足前者的十分之一。

两个挑战

冷启动与「学会一门新语言」

这个想法听起来简单，但实现起来面临两个根本性的难题。

第一个难题是冷启动问题。这些新符号在模型词汇表里从未出现过，它们的嵌入向量（embedding）是随机初始化的，对模型来说毫无意义。你不能指望一个从未学过某种语言的孩子，突然就能用这种语言思考。

第二个难题是：如何让模型学会用这些符号有效地思考，而不只是随机堆砌？

IBM 的研究团队设计了一套两阶段训练方案来应对这两个问题。

第一阶段：策略迭代热启动（Policy Iteration Warm-up）

这个阶段的核心机制，是一种「信息瓶颈」设计。具体来说，训练时，模型会同时看到问题、标准的自然语言推理链（由教师模型提供），以及一段抽象符号序列。但关键在于，最终答案的生成，只被允许「看到」那段抽象符号，而不能直接「看到」自然语言推理链。

这就像是：让一个学生同时拿到完整的解题过程和一段摘要笔记，但考试时只能看笔记作答。久而久之，学生学会了如何把关键信息浓缩进笔记，因为只有笔记够用，才能通过考试。

经过多轮迭代，模型逐渐学会了：如何把推理所需的关键信息，压缩进那些抽象符号里。

第二阶段：热启动强化学习（Warm-started RL）

热启动阶段结束后，研究团队引入了强化学习（GRPO 算法）来进一步优化抽象符号序列的生成策略。模型被要求：只凭借那些抽象符号（不再有任何自然语言推理链辅助），就直接生成高质量的答案。一个生成式奖励模型负责对输出质量打分，反馈信号驱动模型不断改进它的「符号语言」。

实验结果

省了多少，代价是什么

论文在三个主要基准测试上验证了 Abstract-CoT 的效果：数学推理（MATH-500）、通用指令跟随（AlpacaEval）、以及多跳问答（HotpotQA）。

最核心的数据是这两个：

在 MATH-500 数学推理测试中，以 Qwen3-8B 为基础模型，标准的思维链 + 强化学习方法（SFT+RL）平均每道题生成 1671 个 token，准确率为 92.6%。Abstract-CoT（Warm-up + RL）仅生成 144 个 token，准确率达到 90.8%。压缩比约为 11.6 倍，性能差距仅有 1.8 个百分点。

在 AlpacaEval 通用指令测试中，Abstract-CoT 不仅 token 数量从 496 压缩到 225（约 2.2 倍），胜率反而从 58.4% 提升到了 60.8%—— 在生成内容大幅减少的同时，质量反而有所提升。

更难的测试也显示了类似趋势。GPQA-Diamond（研究生级别问答）和 AIME'25（数学竞赛题）的结果表明，即便是高难度推理任务，Abstract-CoT 也能实现 2.7 倍到 7.9 倍的 token 压缩，同时性能几乎与全量思维链持平。

有一个细节值得关注：单独使用「冷启动 RL」（不经过热启动阶段，直接用强化学习训练抽象符号）的效果非常差，在多数设置下甚至不如基线模型。这说明，热启动阶段是不可或缺的 —— 模型必须先学会这套「语言」的基本语义，才能在强化学习阶段进一步优化。

意外发现

抽象符号自发形成了「语言规律」

在实验分析中，研究团队发现了一个他们自己也没有预料到的现象。

经过强化学习训练后，64 个抽象符号的使用频率，自发地形成了一种幂律分布 —— 少数几个符号被高频反复使用，而多数符号使用频率极低。这种分布，与自然语言中的 Zipf 定律（自然语言词频分布的基本规律）高度吻合。