不堆参数、不烧算力！小模型也能跑出大模型能力|信号|大模型|实验|新论文|预训练

不靠堆参数，循环计算赋能小模型提效。

编辑丨李希

当大模型的发展越来越依赖更大的参数规模和更高的训练成本时，一个问题开始被越来越多人关注：模型变强，是否只有“堆参数”这一条路？

过去几年，大模型的发展几乎遵循着同一条路径：更多参数、更多数据、更多算力。

但一个问题始终存在：如果不继续扩大模型规模，只改变模型内部的计算方式，能否同样带来性能提升？

围绕这一问题，22岁的AI研究者 Kye Gomez 提出过 Mythos 架构假想。其核心思路是让模型对同一段信息进行额外的循环计算（Recurrent Depth），尝试用更多内部计算替代部分参数扩张。这并不是对任何现有大模型架构的证明，而是一种值得验证的研究方向。

为了检验这一思路是否具有实际价值，Agnes AI团队基于开源框架搭建了一套完整的语言模型预训练流程，并设计了一系列对照实验，对不同循环层级（T）的效果进行了测试。

实验结果显示，在相同训练条件下，当模型增加一次循环计算（T=1）时，测试集上的PPL（Perplexity，）平均下降约10%。

需要说明的是，PPL下降并不意味着模型准确率提升10%，也不能直接等同于推理能力提升10%。它更像是衡量模型学习效率的一项基础指标。从实验结果来看，增加一次循环计算后，模型对训练数据的利用效率出现了积极变化。

更重要的是，这项实验验证了一个值得进一步研究的现象：在不增加参数规模和模型层数的前提下，仅通过调整模型内部计算流程，也有可能获得性能收益。

当前大模型行业深陷 “堆参数、卷底层优化” 的困局，提升效果靠扩参、降本死磕 KV Cache 与 CUDA 调优，成本高、边际收益越来越低。Agnes AI团队跳出这一思维定式，以Mythos 架构解密为核心，在固定参数的前提下，验证小模型逼近大模型效果的可行性。给出了这条技术路线 “哥德巴赫猜想” T=1 的验证结果，也期待社区在此基础上继续探索，共同验证T=2、3、4… 的更多可能，为行业打开全新方向：不靠堆参数、不烧钱拼算力，靠架构创新，让小模型也能实现更接近大模型的能力。

下面，将详细介绍这项实验的设计过程、关键结果以及目前能够得出的结论与边界。

OpenMythos 与 nanowhale 结合成类 Recurrent Language Model 路线的深度研究

从 Claude Mythos 的架构猜想，到 NanoMythos 在 FineWeb-Edu 10K 上的技术验证

执行摘要

这篇文章解释的是一个小规模但非常关键的架构实验：把 OpenMythos 所代表的 recurrent-depth 思路，移植到 nanowhale / DeepSeek-V4 风格的小型语言模型中，并检验这种 NanoMythos 融合模型是否能够提升预训练效率。

核心结果很直接：在 FineWeb-Edu 10K、5,000 步短预算验证设置下，T=1 的 recurrent 模型把三组随机种子的 held-out PPL 平均值从 baseline 的 166.2 降到 148.3。也就是说，平均下降 17.9 PPL，相对下降约 10.8%，并且 3/3 个随机种子全部获胜。

这并不证明 Claude 内部一定采用了同样的架构。但它说明，Claude-Mythos 式 recurrent-depth 假设可以被转化为一个可复核的工程实验；同时，T=1 这个最小循环深度已经给出了足够清晰的正向信号，值得继续扩大规模验证。

1. 什么是 Claude Mythos，为什么影响力这么大？

“Claude Mythos”更适合被理解为围绕前沿语言模型的一种架构假设，尤其是围绕 Anthropic Claude 系列模型的能力来源展开的讨论。这个说法通常指向一个问题：现代语言模型是否真的只是普通的前馈 Transformer 层堆叠，还是在内部包含了某种重复计算机制，例如 recurrent depth、迭代式表示修正，或者隐藏状态空间中的反复处理。

这个概念之所以有影响力，并不是因为外界已经公开验证了 Claude 的内部架构。真正的影响力来自一个更大的直觉：前沿模型已经表现出复杂推理、规划、自我修正和工具使用能力，而标准 Transformer scaling 只能解释其中一部分现象。因此，研究者开始追问：如果模型不是只靠更多参数，而是通过更多内部计算来提升能力，会不会是一条更高效的路线？

一个直观类比是：读一句话一次和读完后再思考一遍，效果并不一样。标准 Transformer 堆叠是固定层数的单次前向传播；而recurrent-depth 模型会让部分隐藏状态再次经过共享或部分共享的计算核心。它并不等同于人类思考，但它确实增加了一条新的扩展维度：不只是更多参数和更多数据，而是每个 token 可以获得更多内部计算。

2. Recurrent Language Model 研究目前走到哪一步？

Recurrent language model 并不是一个单一方法，而是一组试图让语言模型复用计算、携带状态或多步修正隐藏表示的研究路线。

早期工作如 Universal Transformer 和 Transformer-XL 分别从“重复应用层”和“跨片段记忆”两个角度探索 recurrence。近几年，状态空间模型、RWKV 式递归结构、looped Transformer、recurrent-depth Transformer，以及 Coconut 这类连续潜空间推理方法，也都在不同层面推进类似方向。它们实现不同，但共同动机一致：固定深度的 next-token prediction 未必是分配计算资源的唯一有效方式。

在这个语境下，OpenMythos 的价值不在于它证明了 Claude 的真实设计，而在于它把一个模糊的架构猜想变成了可实现、可检查、可修改的 recurrent-depth Transformer 假设。这样一来，我们就可以问一个更科学的问题：如果把类似的 recurrent 计算路径放入一个受控的小模型中，训练行为是否会被可测量地改善？

传统 scaling：更多参数 + 更多数据 + 更多训练计算
Recurrent-depth scaling：一样的参数 + 更多数据 + 每个 token 更多重复内部计算

3. 我们的结合方式：把 OpenMythos 的 Recurrent Depth 放进 nanowhale 风格骨干

融合后的模型可以理解为一个 NanoMythos 验证框架。宿主模型沿用 nanowhale 的方向：一个约 110M 规模、DeepSeek-V4 风格的小语言模型，适合低成本、反复进行预训练架构实验。架构干预来自 OpenMythos 的核心想法：在网络中间插入一个 recurrent / Mythos core，并让它循环执行 T 次。

这样就形成了一个清晰的受控对比：baseline 保留 nanowhale 风格骨干，但不引入 recurrent depth；实验模型保持同样的模型家族、数据集和训练预算，只在中间核心处执行一次 recurrent pass，也就是 T=1。

T=1 是一个刻意保守的设置。它并不是为了模拟很长的“思考过程”，而是最小的非平凡 recurrent-depth 配置：足以检验这条路径是否有帮助，同时又不会让过深循环带来的不稳定性掩盖结果。

图 1. NanoMythos 架构：将 OpenMythos 风格 recurrent depth 移植到 nanowhale / DeepSeek-V4 风格小语言模型中。

4. 实验设置

这个验证问题非常窄：在相同的 FineWeb-Edu 10K 预训练预算下，T=1 recurrent depth 是否能比 baseline 获得更低的 held-out perplexity？

FineWeb-Edu 10K 是一个紧凑的教育类网页预训练子集。它的目标不是训练出生产级模型，而是提供一个足够真实、迭代速度足够快的数据分布，用于早期架构验证。

每个模型训练 5,000 步。对于主随机种子，还在 1,000、2,000、3,000、4,000 和 5,000 步进行阶段性评估。实验覆盖三个随机种子：seed2025、seed2027 和 seed2048。核心指标是 held-out perplexity，数值越低越好。

5. 核心结果：T=1 让 PPL 下降约 10%

在 5,000 训练步时，NanoMythos T=1 在所有测试随机种子上都优于 baseline。

图 2. FineWeb-Edu 10K 跨种子 PPL 对比。Delta 为负表示 NanoMythos T=1 更好。

这个结果有两点意义。第一，提升不是某一个随机种子的偶然：T=1 在 seed2025、seed2027 和 seed2048 上全部获胜。第二，seed2027 尤其值得注意。baseline 退化到 187.7 PPL，而 T=1 保持在 151.4 PPL，明显更接近其他 T=1 结果。这可能暗示 recurrent-depth 改写带来了一定稳定化效果，当然还需要更多随机种子才能做强统计结论。

因此，最稳妥的结论不是“recurrent depth 一定全面优于传统架构”，而是：T=1 已经给出了足够稳定的正向信号，值得进入更大规模验证。

6. 训练动态：差距在 3,000 步后变得更清楚

图 3. Seed2025 阶段性评估。T=1 始终更优，并且 3,000 步后差距更明显。

这个趋势很重要，因为很多弱架构技巧只会带来早期优化假象，后续优势会消失。但这里的优势没有消失，反而随着训练推进更明显。这支持一种解释：recurrent-depth 计算改善的是参数使用效率，而不只是早期优化行为。

7. 外部参考：GPT-2 Standard / Small

GPT-2 对比需要谨慎解读。GPT-2 与 nanowhale 在 tokenizer、block 设计、参数组织和实现细节上都有差异，因此它不是一个纯粹的architecture-only 对比。

但它仍然有参考价值。在短预算 FineWeb-Edu 10K、相同数据量与训练步数下，随机初始化的 GPT-2 Standard 124M 验证 PPL 为 273.5，而 nanowhale T=1 为 147.7——绝对低约 126 点，相对约 46%，可视为早期收敛明显优于该 GPT-2 基线。

8. 这个结果证明了什么，又没有证明什么？

T=1 收益最可能的解释，并不是模型突然拥有了类似人类的推理能力。更技术性的解释是：recurrent block 让模型在复用参数的同时，对 token-level hidden representation 多做了一次修正，从而提升了compute-per-parameter 的效率。

这不同于简单加层。加层会增加独立参数数量；复用中间核心则是在参数预算更受控的情况下增加有效计算深度。

因此，这个结果支持的是一个适度但重要的主张：recurrent-depth computation 是一个值得继续探索的预训练架构改进方向，而 T=1 是当前最干净、最适合作为扩展起点的配置。

9. 为什么 T=2 还不是当前主线？

T=2 在当前 recipe 下表现明显更差。这不应该被理解为“更深 recurrence 没有价值”的证明。更合理的解释是：T=2 不能直接套用为 baseline 或 T=1 调好的训练配方。

可能原因包括学习率不匹配、warmup 不足、hidden-state drift、残差缩放不足、loop embedding 不够强，以及 5,000 步 / 10K 数据规模太小，无法让更深循环稳定发挥作用。

10. 下一步：如何把 T 扩大到更高？

扩展到 FineWeb-Edu 50K：在更大数据设置下运行 baseline、T=1 和 GPT-2 Standard 对比，验证 T=1 优势是否能从 10K pilot 延续到更大数据规模。

100M–200M T=1 pilot：把 T=1 作为默认 recurrent-depth 设置，测试当模型接近 GPT-2 Small / Standard 规模时，收益是否仍然可见。

T=2 recipe search：把 T=2 当作独立消融轨道，而不是直接替代 T=1。重点测试更低学习率、更长 warmup、残差阻尼、门控 recurrent update、step-aware loop embedding、更强 normalization 和更长训练 schedule。

自适应 latent compute：从固定 T 走向可变深度计算。让简单 token 使用更少内部 pass，让困难 token 使用更多 pass，可用 hidden delta、logit KL、entropy change 或 learned halting 信号控制停止。

连接推理任务：把 PPL 证据延伸到 reasoning tasks：引入 Coconut-light 路线、连续 latent thoughts、 / latent spans，以及 DAG search、logic chains、arithmetic carry、GSM8K-mini 等诊断任务。

11. 结论

OpenMythos 与 nanowhale 的结合，把一个关于 Claude Mythos 的架构猜想，转化成了一个具体的工程实验。它没有声称知道 Claude 的内部设计，而是提出一个可测量问题：在受控预训练设置下，recurrent-depth 机制是否能改善一个小型开放模型？

FineWeb-Edu 10K 的结果是正向的：baseline 平均 PPL 为 166.2，NanoMythos T=1 平均 PPL 为 148.3，平均提升 17.9 PPL，随机种子胜率 3/3，相对 held-out perplexity 下降约 10.8%。

最稳妥的结论是：T=1 recurrent depth 是一个可信的架构改进候选，值得进入下一阶段 scale-up。如果这个信号能在 FineWeb-Edu 50K 和 100M–200M pilot 上继续存在，NanoMythos 就可以从一个架构猜想实验，进一步发展为面向高效预训练和 latent compute 的系统研究路线。

来源说明

本中文 Word 版本基于 NanoMythos / nanowhale 技术验证材料，以及 FineWeb-Edu 10K cross-seed 实验结果整理。

文档中的架构图、实验柱状图和训练动态折线图均已重建为适合 Word 阅读和传播的多模态内容，并尽量保留原始技术信息。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。