中国AI双子星5次撞车：你的论文成了我的训练方案，我的架构成了你的底座

爬虫饲养员

2026-04-27 16:16 ·北京

「用 MuonClip 而非 Adam 训练 Transformer 大模型，效果会好得多。」杨植麟在英伟达 GTC 2026 演讲中的这句话，今天成了另一份技术报告里的脚注。

两家被外界反复对比的「开源双子星」，技术底层早就长到了一起。你中有我，我中有你——这是中国 AI 圈最魔幻的一幕，也是过去十二个月里最值得拆解的产品现象。

Muon 优化器：从一场演讲到另一份技术报告

V4 发布的技术报告里，大多数人滑过了这个名词：Muon 优化器。

三天前，Kimi 2.6 刚刚用它实现了同等训练量下 2 倍效率提升，并在 1 万亿参数规模上解决了训练不稳定难题。杨植麟当时算过一笔账：在数据墙面前，token 效率翻倍相当于把 50 万亿 token 用出 100 万亿的效果。

现在这项技术出现在 V4 的训练方案里。大多数模块用 Muon 加速收敛，嵌入层和预测头仍用 AdamW，混合使用。

这不是简单的「拿来主义」。Kimi 在万亿参数规模上踩过的坑，另一家直接受益。

杨植麟在 GTC 上详细拆解过那个技术卡点：当 Muon 扩展到 1 万亿参数，最大 logits 爆炸超过 1000（正常值 50 到 100），损失先降后炸，根本无法收敛。Kimi 的解法是 QK-Clip，对每个注意力头计算最大 logit 的裁剪值，把查询和键限制在合理范围内。

K2 模型用这套技术完成了训练，创下机器学习史上最大规模 Muon 训练的纪录。四个月后，这套方法论写进了 V4 的技术文档。

反过来，Kimi K2 的架构底座写着另一个名字：它采用了 V3 提出的 MLA（多头潜在注意力，Multi-head Latent Attention）。通过压缩 KV 缓存大幅降低推理成本，这是 V3 最核心的架构创新之一。

你的论文成了我的基础设施，我的创新成了你的底座。写在引用列表里的互相成就。

5 次「撞车」：巧合还是必然？

算上 V4 和 K2.6 前后脚上线，这已经是两家过去一年里的第 5 次「撞车」。

第 1 次最戏剧性。2025 年 1 月 20 日晚 8 点 10 分，R1 发布并以 MIT 协议完全开源。不到两小时后，Kimi k1.5 亮相。

两者都瞄准同一件事：让模型从「张嘴就来」变成「先想后说」，用强化学习跑通长思维链推理（Long-CoT）。

OpenAI 后来在一篇论文中点名指出：这两家是「最早复现 OpenAI-o1 Long-CoT」的公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么，并且用自己的方式做了出来。

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

第 2 次到第 4 次，时间线逐渐密集。每次撞车恰好对应一个行业拐点的到来：从「学会思考」到「学会干活」，从「改 Transformer」到「改算力底座」。

最近这次在 4 天内完成。K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力，V4 把百万上下文做成了所有服务的标配，输出长度拉到 384K tokens。

两家同时推进国产芯片适配：V4 下半年支持华为昇腾 950，寒武纪已完成 Day 0 适配；K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态，全齐了。

如果只是时间重合，那叫巧合。但把每次发布的内容拉出来看，你会发现一条清晰的暗线：对同一个方向的必然趋同。

底层架构：挑战同一批「古老」基础设施

技术路线上，一家以推理模型见长，另一家以 Agent 能力著称。但在更底层的架构层面，两家都在挑战同一批 ResNet 时代留下来的遗产。

Kimi 发了「注意力残差」论文，另一家做了多头压缩（mHC）残差连接，目标一致：改掉残差连接的旧范式。

在长文本这条线，Kimi 探索线性注意力（Kimi Linear），另一家探索稀疏注意力（DSA），路径不同，终点相近。

在长文本推理成本上，两家都在压缩 KV 缓存：MLA 把缓存压到原来的 1/4，Kimi 的 MQA 变体进一步压到 1/8。

这些不是「抄作业」。两家团队都在回答同一个问题：当模型规模突破万亿参数、上下文突破百万 token，1980 年代设计的神经网络基础组件，哪些该留着，哪些该拆掉重建？

硅谷的 AI 巨头们很少这样。OpenAI 的论文不会引用 Anthropic 的技术细节，Gemini 的训练报告里找不到对 GPT 架构的致谢。封闭生态里，技术路线是护城河，互相引用是示弱。

但开源世界里，引用是尊重，复现是接力。一家公司的突破，很快成为全行业的公共品。

5 次撞车的背后，是两家团队对技术方向的共同判断：数据墙来了，要抢效率；算力受限了，要改架构；Agent 是下一个战场，国产芯片必须支持。

这不是内卷，是中国 AI 在用自己的方式定义下一代基础设施。你中有我，我中有你——恰恰是开源精神最硬核的注脚。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴