「用 MuonClip 而非 Adam 训练 Transformer 大模型,效果会好得多。」杨植麟在英伟达 GTC 2026 演讲中的这句话,今天成了另一份技术报告里的脚注。

两家被外界反复对比的「开源双子星」,技术底层早就长到了一起。你中有我,我中有你——这是中国 AI 圈最魔幻的一幕,也是过去十二个月里最值得拆解的产品现象。

打开网易新闻 查看精彩图片

Muon 优化器:从一场演讲到另一份技术报告

V4 发布的技术报告里,大多数人滑过了这个名词:Muon 优化器。

三天前,Kimi 2.6 刚刚用它实现了同等训练量下 2 倍效率提升,并在 1 万亿参数规模上解决了训练不稳定难题。杨植麟当时算过一笔账:在数据墙面前,token 效率翻倍相当于把 50 万亿 token 用出 100 万亿的效果。

现在这项技术出现在 V4 的训练方案里。大多数模块用 Muon 加速收敛,嵌入层和预测头仍用 AdamW,混合使用。

这不是简单的「拿来主义」。Kimi 在万亿参数规模上踩过的坑,另一家直接受益。

杨植麟在 GTC 上详细拆解过那个技术卡点:当 Muon 扩展到 1 万亿参数,最大 logits 爆炸超过 1000(正常值 50 到 100),损失先降后炸,根本无法收敛。Kimi 的解法是 QK-Clip,对每个注意力头计算最大 logit 的裁剪值,把查询和键限制在合理范围内。

K2 模型用这套技术完成了训练,创下机器学习史上最大规模 Muon 训练的纪录。四个月后,这套方法论写进了 V4 的技术文档。

反过来,Kimi K2 的架构底座写着另一个名字:它采用了 V3 提出的 MLA(多头潜在注意力,Multi-head Latent Attention)。通过压缩 KV 缓存大幅降低推理成本,这是 V3 最核心的架构创新之一。

你的论文成了我的基础设施,我的创新成了你的底座。写在引用列表里的互相成就。

5 次「撞车」:巧合还是必然?

算上 V4 和 K2.6 前后脚上线,这已经是两家过去一年里的第 5 次「撞车」。

第 1 次最戏剧性。2025 年 1 月 20 日晚 8 点 10 分,R1 发布并以 MIT 协议完全开源。不到两小时后,Kimi k1.5 亮相。

两者都瞄准同一件事:让模型从「张嘴就来」变成「先想后说」,用强化学习跑通长思维链推理(Long-CoT)。

OpenAI 后来在一篇论文中点名指出:这两家是「最早复现 OpenAI-o1 Long-CoT」的公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么,并且用自己的方式做了出来。

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

第 2 次到第 4 次,时间线逐渐密集。每次撞车恰好对应一个行业拐点的到来:从「学会思考」到「学会干活」,从「改 Transformer」到「改算力底座」。

最近这次在 4 天内完成。K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力,V4 把百万上下文做成了所有服务的标配,输出长度拉到 384K tokens。

两家同时推进国产芯片适配:V4 下半年支持华为昇腾 950,寒武纪已完成 Day 0 适配;K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态,全齐了。

如果只是时间重合,那叫巧合。但把每次发布的内容拉出来看,你会发现一条清晰的暗线:对同一个方向的必然趋同。

底层架构:挑战同一批「古老」基础设施

技术路线上,一家以推理模型见长,另一家以 Agent 能力著称。但在更底层的架构层面,两家都在挑战同一批 ResNet 时代留下来的遗产。

Kimi 发了「注意力残差」论文,另一家做了多头压缩(mHC)残差连接,目标一致:改掉残差连接的旧范式。

在长文本这条线,Kimi 探索线性注意力(Kimi Linear),另一家探索稀疏注意力(DSA),路径不同,终点相近。

在长文本推理成本上,两家都在压缩 KV 缓存:MLA 把缓存压到原来的 1/4,Kimi 的 MQA 变体进一步压到 1/8。

这些不是「抄作业」。两家团队都在回答同一个问题:当模型规模突破万亿参数、上下文突破百万 token,1980 年代设计的神经网络基础组件,哪些该留着,哪些该拆掉重建?

硅谷的 AI 巨头们很少这样。OpenAI 的论文不会引用 Anthropic 的技术细节,Gemini 的训练报告里找不到对 GPT 架构的致谢。封闭生态里,技术路线是护城河,互相引用是示弱。

但开源世界里,引用是尊重,复现是接力。一家公司的突破,很快成为全行业的公共品。

5 次撞车的背后,是两家团队对技术方向的共同判断:数据墙来了,要抢效率;算力受限了,要改架构;Agent 是下一个战场,国产芯片必须支持。

这不是内卷,是中国 AI 在用自己的方式定义下一代基础设施。你中有我,我中有你——恰恰是开源精神最硬核的注脚。