一个22岁创业公司 CEO,用600行 PyTorch 代码,基于公开论文从第一性原理逆向推导出了 Anthropic 最神秘的 Claude Mythos 核心架构——并全部开源。本周 GitHub 狂揽 7300+ Stars,整个 AI 社区都震惊了。
什么是 OpenMythos?
OpenMythos是由 22 岁开发者 Kye Gomez 发起的开源项目,旨在用第一性原理对 Anthropic 闭源的 Claude Mythos 架构进行理论性重建。
它不是泄露的模型,也不是蒸馏版本。作者通过深度解析公开学术论文,提出了一个核心假设:Claude Mythos 本质上是一种循环深度 Transformer(Recurrent-Depth Transformer,RDT),通过反复循环同一套权重来实现"隐空间链式推理",而非依赖传统的堆参数 Scaling。
核心结论:k 层权重循环 L 次,等效 kL 层非循环模型的表达能力,但参数量只需 k 层。
最惊人的数字:OpenMythos 770M 参数模型,可以达到 1.3B 参数标准 Transformer 的等效表达能力,同时在多步推理任务上碾压同量级竞品!
✨ 核心功能一览
核心架构:三段式循环 Transformer
OpenMythos 的整体架构分为三个阶段:
1️⃣ Prelude(前奏)
标准 Transformer 层,只跑一次。把原始输入编码成初始隐状态,交给循环块处理。
2️⃣ Recurrent Block(循环块)— 核心创新
这是整个架构最有价值的部分。同一组权重被循环使用最多 max_loop_iters 次(默认 16 次),每一轮都会把原始输入 e 重新注入到隐藏状态 h 中:
h_{t+1} = A · h_t + B · e + Transformer(h_t, e)每轮循环就像一步深层推理:
- • 第1轮:理解问题表面语义
- • 第5轮:建立逻辑关联
- • 第10轮:验证推理路径
- • 第16轮:输出确定结论
标准 Transformer 层,只跑一次。将最终隐状态解码为输出 token。
最关键的突破:训练时只用5步推理链,测试时用10步推理链,模型依然能成功——传统 Transformer 在这里会彻底失败!
️ 快速上手:5 分钟跑通示例安装
pip install open-mythos# 或用 uv(更快)uv pip install open-mythos基础使用(MLA 注意力)import torchfrom open_mythos.main import OpenMythos, MythosConfig# 配置一个小型演示模型cfg = MythosConfig(vocab_size=1000,dim=256,n_heads=8,max_seq_len=128,max_loop_iters=4, # 循环4次prelude_layers=1,coda_layers=1,n_experts=8, # 8个 MoE 专家n_shared_experts=1,n_experts_per_tok=2,expert_dim=64,lora_rank=8,attn_type="mla", # Multi-Head Latent Attentionn_kv_heads=8,kv_lora_rank=32,q_lora_rank=64,qk_rope_head_dim=16,qk_nope_head_dim=16,v_head_dim=16,model = OpenMythos(cfg)total = sum(p.numel() for p in model.parameters())print(f"参数量: {total:,}")# 前向传播ids = torch.randint(0, cfg.vocab_size, (2, 16))logits = model(ids, n_loops=4)print(f"Logits shape: {logits.shape}")# 文本生成(推理时用更多循环!)out = model.generate(ids, max_new_tokens=8, n_loops=8)# 验证稳定性:谱半径必须 < 1A = model.recurrent.injection.get_A()print(f"谱半径 ρ(A) = {A.max().item():.4f}(必须 < 1,保证训练稳定)")使用预配置的生产级模型变体from open_mythos import mythos_1b, mythos_3b, OpenMythos# 直接用预配置(无需手动设置所有超参数)cfg = mythos_3b() # 3B 参数,等效 10B+ 表达能力model = OpenMythos(cfg)total = sum(p.numel() for p in model.parameters())print(f"参数量: {total:,}")训练自己的循环 Transformer# 单 GPU 训练 3B 模型python training/3b_fine_web_edu.py# 多 GPU 分布式训练(DDP)torchrun --nproc_per_node=8 training/3b_fine_web_edu.py注意:训练时使用 FineWeb-Edu 数据集,目标 300 亿 token(Chinchilla 最优比例)。H100/A100 推荐 bfloat16;旧 GPU 使用 float16 + GradScaler。
与竞品对比
适用场景场景一:AI 架构研究
功能说明:为研究者提供一套完整的循环深度 Transformer 实现,可在其基础上进行实验和改进。代码仅 600 行,结构清晰,注释详尽,是学习前沿架构的绝佳材料。
输入要求:标准文本 token 序列。
输出效果:多步推理质量显著优于同参数量 Transformer。
适用场景:AI 架构论文研究、复现循环 Transformer 基线实验、探索 Scaling Law 新方向。
场景二:低资源高效训练
功能说明:通过权重复用降低参数量,在有限算力下获得更强的推理能力。770M 参数模型等效 1.3B 效果,特别适合学术机构和个人开发者。
输入要求:任意文本训练数据(支持 HuggingFace 数据集格式)。
输出效果:同参数量下多步推理、数学推断、逻辑链条的表现大幅超越标准 Transformer。
适用场景:学术预训练实验、低显存环境下的 LLM 预研、初创团队降低训练成本。
场景三:探索"隐式思维链"
功能说明:不同于显式 Chain-of-Thought(CoT)在 token 层面逐步推理,OpenMythos 在隐空间中每一次循环都等价于一步推理。可以研究模型是如何在内部"默想"的。
适用场景:可解释性 AI 研究、思维链替代方案探索、复杂推理任务(数学/法律/科学)。
用户群体总结
- • ✅AI 架构研究者:用600行代码研究循环 Transformer 的可能性
- • ✅低算力团队:用更少参数实现更强推理能力,降低训练成本
- • ✅LLM 爱好者:深入理解前沿 LLM 架构设计哲学
- • ✅学生/学者:基于此实验自己的架构改进想法
- • ❌不适合:生产级推理部署(尚无预训练权重,需自行训练)
变体维度专家数循环次数上下文长度mythos_1b204864164Kmythos_3b307264164Kmythos_10b4096128248Kmythos_50b6144256328Kmythos_100b8192256321Mmythos_500b12288512481Mmythos_1t16384512641M
开源协议
开源协议:MIT License
重要声明:OpenMythos 是独立的社区驱动理论重构项目,完全基于公开研究,与 Anthropic 无任何关联或背书。
完全免费开源!代码结构清晰,600行核心代码,MIT 协议,可随意用于学术研究和商业项目。
总结
OpenMythos 是 2026 年 AI 开源社区最令人兴奋的项目之一。它代表的不仅是一个具体工具,更是一种思维方式:与其盲目堆参数,不如设计更智能的推理架构。循环深度 Transformer 理念如果被证实,将颠覆 LLM Scaling Law 的常识认知。
无论 OpenMythos 最终与 Claude Mythos 真实架构的相似度有多高,单就"用第一性原理重建闭源 AI 架构"这件事本身,就足以让整个 AI 社区为之侧目。
这是一个值得每一位 AI 工程师和研究者认真 star 并深读的开源项目。
推荐指数:⭐⭐⭐⭐⭐
适合人群:AI 研究者、LLM 爱好者、架构设计者、在校学生
GitHub 仓库:kyegomez/OpenMythos
数据截至 2026-04-22,最新信息请以官方仓库为准。项目仍在快速迭代,建议 Watch 仓库获取最新进展。
热门跟贴