打开网易新闻 查看精彩图片

不靠堆参数,循环计算赋能小模型提效。

编辑丨李希

当大模型的发展越来越依赖更大的参数规模和更高的训练成本时,一个问题开始被越来越多人关注:模型变强,是否只有“堆参数”这一条路?

过去几年,大模型的发展几乎遵循着同一条路径:更多参数、更多数据、更多算力。

但一个问题始终存在:如果不继续扩大模型规模,只改变模型内部的计算方式,能否同样带来性能提升?

围绕这一问题,22岁的AI研究者 Kye Gomez 提出过 Mythos 架构假想。其核心思路是让模型对同一段信息进行额外的循环计算(Recurrent Depth),尝试用更多内部计算替代部分参数扩张。这并不是对任何现有大模型架构的证明,而是一种值得验证的研究方向。

为了检验这一思路是否具有实际价值,Agnes AI团队基于开源框架搭建了一套完整的语言模型预训练流程,并设计了一系列对照实验,对不同循环层级(T)的效果进行了测试。

实验结果显示,在相同训练条件下,当模型增加一次循环计算(T=1)时,测试集上的PPL(Perplexity,)平均下降约10%。

需要说明的是,PPL下降并不意味着模型准确率提升10%,也不能直接等同于推理能力提升10%。它更像是衡量模型学习效率的一项基础指标。从实验结果来看,增加一次循环计算后,模型对训练数据的利用效率出现了积极变化。

更重要的是,这项实验验证了一个值得进一步研究的现象:在不增加参数规模和模型层数的前提下,仅通过调整模型内部计算流程,也有可能获得性能收益。

当前大模型行业深陷 “堆参数、卷底层优化” 的困局,提升效果靠扩参、降本死磕 KV Cache 与 CUDA 调优,成本高、边际收益越来越低。Agnes AI团队跳出这一思维定式,以Mythos 架构解密为核心,在固定参数的前提下,验证小模型逼近大模型效果的可行性。给出了这条技术路线 “哥德巴赫猜想” T=1 的验证结果,也期待社区在此基础上继续探索,共同验证T=2、3、4… 的更多可能,为行业打开全新方向:不靠堆参数、不烧钱拼算力,靠架构创新,让小模型也能实现更接近大模型的能力。

下面,将详细介绍这项实验的设计过程、关键结果以及目前能够得出的结论与边界。

OpenMythos 与 nanowhale 结合成类 Recurrent Language Model 路线的深度研究

从 Claude Mythos 的架构猜想,到 NanoMythos 在 FineWeb-Edu 10K 上的技术验证

01

执行摘要

这篇文章解释的是一个小规模但非常关键的架构实验:把 OpenMythos 所代表的 recurrent-depth 思路,移植到 nanowhale / DeepSeek-V4 风格的小型语言模型中,并检验这种 NanoMythos 融合模型是否能够提升预训练效率。

核心结果很直接:在 FineWeb-Edu 10K、5,000 步短预算验证设置下,T=1 的 recurrent 模型把三组随机种子的 held-out PPL 平均值从 baseline 的 166.2 降到 148.3。也就是说,平均下降 17.9 PPL,相对下降约 10.8%,并且 3/3 个随机种子全部获胜。

这并不证明 Claude 内部一定采用了同样的架构。但它说明,Claude-Mythos 式 recurrent-depth 假设可以被转化为一个可复核的工程实验;同时,T=1 这个最小循环深度已经给出了足够清晰的正向信号,值得继续扩大规模验证。

1. 什么是 Claude Mythos,为什么影响力这么大?

“Claude Mythos”更适合被理解为围绕前沿语言模型的一种架构假设,尤其是围绕 Anthropic Claude 系列模型的能力来源展开的讨论。这个说法通常指向一个问题:现代语言模型是否真的只是普通的前馈 Transformer 层堆叠,还是在内部包含了某种重复计算机制,例如 recurrent depth、迭代式表示修正,或者隐藏状态空间中的反复处理。

这个概念之所以有影响力,并不是因为外界已经公开验证了 Claude 的内部架构。真正的影响力来自一个更大的直觉:前沿模型已经表现出复杂推理、规划、自我修正和工具使用能力,而标准 Transformer scaling 只能解释其中一部分现象。因此,研究者开始追问:如果模型不是只靠更多参数,而是通过更多内部计算来提升能力,会不会是一条更高效的路线?

一个直观类比是:读一句话一次和读完后再思考一遍,效果并不一样。标准 Transformer 堆叠是固定层数的单次前向传播;而recurrent-depth 模型会让部分隐藏状态再次经过共享或部分共享的计算核心。它并不等同于人类思考,但它确实增加了一条新的扩展维度:不只是更多参数和更多数据,而是每个 token 可以获得更多内部计算。

2. Recurrent Language Model 研究目前走到哪一步?

Recurrent language model 并不是一个单一方法,而是一组试图让语言模型复用计算、携带状态或多步修正隐藏表示的研究路线。

早期工作如 Universal Transformer 和 Transformer-XL 分别从“重复应用层”和“跨片段记忆”两个角度探索 recurrence。近几年,状态空间模型、RWKV 式递归结构、looped Transformer、recurrent-depth Transformer,以及 Coconut 这类连续潜空间推理方法,也都在不同层面推进类似方向。它们实现不同,但共同动机一致:固定深度的 next-token prediction 未必是分配计算资源的唯一有效方式。

在这个语境下,OpenMythos 的价值不在于它证明了 Claude 的真实设计,而在于它把一个模糊的架构猜想变成了可实现、可检查、可修改的 recurrent-depth Transformer 假设。这样一来,我们就可以问一个更科学的问题:如果把类似的 recurrent 计算路径放入一个受控的小模型中,训练行为是否会被可测量地改善?

传统 scaling:更多参数 + 更多数据 + 更多训练计算
Recurrent-depth scaling:一样的参数 + 更多数据 + 每个 token 更多重复内部计算

3. 我们的结合方式:把 OpenMythos 的 Recurrent Depth 放进 nanowhale 风格骨干

融合后的模型可以理解为一个 NanoMythos 验证框架。宿主模型沿用 nanowhale 的方向:一个约 110M 规模、DeepSeek-V4 风格的小语言模型,适合低成本、反复进行预训练架构实验。架构干预来自 OpenMythos 的核心想法:在网络中间插入一个 recurrent / Mythos core,并让它循环执行 T 次。

这样就形成了一个清晰的受控对比:baseline 保留 nanowhale 风格骨干,但不引入 recurrent depth;实验模型保持同样的模型家族、数据集和训练预算,只在中间核心处执行一次 recurrent pass,也就是 T=1。

T=1 是一个刻意保守的设置。它并不是为了模拟很长的“思考过程”,而是最小的非平凡 recurrent-depth 配置:足以检验这条路径是否有帮助,同时又不会让过深循环带来的不稳定性掩盖结果。

打开网易新闻 查看精彩图片

图 1. NanoMythos 架构:将 OpenMythos 风格 recurrent depth 移植到 nanowhale / DeepSeek-V4 风格小语言模型中。

打开网易新闻 查看精彩图片

4. 实验设置

这个验证问题非常窄:在相同的 FineWeb-Edu 10K 预训练预算下,T=1 recurrent depth 是否能比 baseline 获得更低的 held-out perplexity?

FineWeb-Edu 10K 是一个紧凑的教育类网页预训练子集。它的目标不是训练出生产级模型,而是提供一个足够真实、迭代速度足够快的数据分布,用于早期架构验证。

每个模型训练 5,000 步。对于主随机种子,还在 1,000、2,000、3,000、4,000 和 5,000 步进行阶段性评估。实验覆盖三个随机种子:seed2025、seed2027 和 seed2048。核心指标是 held-out perplexity,数值越低越好。

5. 核心结果:T=1 让 PPL 下降约 10%

在 5,000 训练步时,NanoMythos T=1 在所有测试随机种子上都优于 baseline。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 2. FineWeb-Edu 10K 跨种子 PPL 对比。Delta 为负表示 NanoMythos T=1 更好。

这个结果有两点意义。第一,提升不是某一个随机种子的偶然:T=1 在 seed2025、seed2027 和 seed2048 上全部获胜。第二,seed2027 尤其值得注意。baseline 退化到 187.7 PPL,而 T=1 保持在 151.4 PPL,明显更接近其他 T=1 结果。这可能暗示 recurrent-depth 改写带来了一定稳定化效果,当然还需要更多随机种子才能做强统计结论。

因此,最稳妥的结论不是“recurrent depth 一定全面优于传统架构”,而是:T=1 已经给出了足够稳定的正向信号,值得进入更大规模验证。

6. 训练动态:差距在 3,000 步后变得更清楚

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 3. Seed2025 阶段性评估。T=1 始终更优,并且 3,000 步后差距更明显。

这个趋势很重要,因为很多弱架构技巧只会带来早期优化假象,后续优势会消失。但这里的优势没有消失,反而随着训练推进更明显。这支持一种解释:recurrent-depth 计算改善的是参数使用效率,而不只是早期优化行为。

7. 外部参考:GPT-2 Standard / Small

打开网易新闻 查看精彩图片

GPT-2 对比需要谨慎解读。GPT-2 与 nanowhale 在 tokenizer、block 设计、参数组织和实现细节上都有差异,因此它不是一个纯粹的architecture-only 对比。

但它仍然有参考价值。在短预算 FineWeb-Edu 10K、相同数据量与训练步数下,随机初始化的 GPT-2 Standard 124M 验证 PPL 为 273.5,而 nanowhale T=1 为 147.7——绝对低约 126 点,相对约 46%,可视为早期收敛明显优于该 GPT-2 基线。

8. 这个结果证明了什么,又没有证明什么?

T=1 收益最可能的解释,并不是模型突然拥有了类似人类的推理能力。更技术性的解释是:recurrent block 让模型在复用参数的同时,对 token-level hidden representation 多做了一次修正,从而提升了compute-per-parameter 的效率。

这不同于简单加层。加层会增加独立参数数量;复用中间核心则是在参数预算更受控的情况下增加有效计算深度。

因此,这个结果支持的是一个适度但重要的主张:recurrent-depth computation 是一个值得继续探索的预训练架构改进方向,而 T=1 是当前最干净、最适合作为扩展起点的配置。

打开网易新闻 查看精彩图片

9. 为什么 T=2 还不是当前主线?

打开网易新闻 查看精彩图片

T=2 在当前 recipe 下表现明显更差。这不应该被理解为“更深 recurrence 没有价值”的证明。更合理的解释是:T=2 不能直接套用为 baseline 或 T=1 调好的训练配方。

可能原因包括学习率不匹配、warmup 不足、hidden-state drift、残差缩放不足、loop embedding 不够强,以及 5,000 步 / 10K 数据规模太小,无法让更深循环稳定发挥作用。

10. 下一步:如何把 T 扩大到更高?

扩展到 FineWeb-Edu 50K:在更大数据设置下运行 baseline、T=1 和 GPT-2 Standard 对比,验证 T=1 优势是否能从 10K pilot 延续到更大数据规模。

100M–200M T=1 pilot:把 T=1 作为默认 recurrent-depth 设置,测试当模型接近 GPT-2 Small / Standard 规模时,收益是否仍然可见。

T=2 recipe search:把 T=2 当作独立消融轨道,而不是直接替代 T=1。重点测试更低学习率、更长 warmup、残差阻尼、门控 recurrent update、step-aware loop embedding、更强 normalization 和更长训练 schedule。

自适应 latent compute:从固定 T 走向可变深度计算。让简单 token 使用更少内部 pass,让困难 token 使用更多 pass,可用 hidden delta、logit KL、entropy change 或 learned halting 信号控制停止。

连接推理任务:把 PPL 证据延伸到 reasoning tasks:引入 Coconut-light 路线、连续 latent thoughts、 / latent spans,以及 DAG search、logic chains、arithmetic carry、GSM8K-mini 等诊断任务。

11. 结论

OpenMythos 与 nanowhale 的结合,把一个关于 Claude Mythos 的架构猜想,转化成了一个具体的工程实验。它没有声称知道 Claude 的内部设计,而是提出一个可测量问题:在受控预训练设置下,recurrent-depth 机制是否能改善一个小型开放模型?

FineWeb-Edu 10K 的结果是正向的:baseline 平均 PPL 为 166.2,NanoMythos T=1 平均 PPL 为 148.3,平均提升 17.9 PPL,随机种子胜率 3/3,相对 held-out perplexity 下降约 10.8%。

最稳妥的结论是:T=1 recurrent depth 是一个可信的架构改进候选,值得进入下一阶段 scale-up。如果这个信号能在 FineWeb-Edu 50K 和 100M–200M pilot 上继续存在,NanoMythos 就可以从一个架构猜想实验,进一步发展为面向高效预训练和 latent compute 的系统研究路线。

02

来源说明

本中文 Word 版本基于 NanoMythos / nanowhale 技术验证材料,以及 FineWeb-Edu 10K cross-seed 实验结果整理。

文档中的架构图、实验柱状图和训练动态折线图均已重建为适合 Word 阅读和传播的多模态内容,并尽量保留原始技术信息。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。