马斯克的Grok4刚发布没两天,我以为Grok4会是世界上最大的非推理模型,毕竟它背后有世界上最大的GPU集群之一,但是它走的还是其他家的老路,做一个不错的foundation model,然后用RL做post-training,刷榜,最后再搞个一年2万块的会员门槛将普通用户拒之门外。

但Kimi给全世界交出来一份另类的卷子,我觉得简直就是针对于马斯克Grok4的回手掏,这是一点儿不那么技术的分析。

Github:https://github.com/MoonshotAI/Kimi-K2?tab=readme-ov-file#4-deployment

技术报告:https://moonshotai.github.io/Kimi-K2/

使用方式(免费):https://www.kimi.com/

  • 全世界最大的开源模型,总参数量高达1T(Trillion,万亿),以前一般都用B(10亿),比如DeepSeek的671B,Qwen系列的从0.5B到300多B,主流模型都在几百亿-几千亿的区间,以前有万亿模型,但是训练容易爆炸且推理速度极慢,Kimi搞出来一套招法搞定了超大稀疏MoE,它标志着「开源规模」进入了万亿参数时代。

  • Foundation model,也就是它本身是不带有thinking/reasoning能力的,用DeepSeek来比如,V3模型就是foundation model,R1就是推理模型,R1是在V3的基础上后训练出来的。这样做很吃亏,因为Foundation model加点RL post-training就有非常明显的提升,但Kimi没这么做。

  • Agent时代的含金量又一次提升,Agent非常火,大家用的模型都非常的统一,不管事OpenAI的o系列,Google的Gemini系列,DeepSeek的R系列,Claude的4-sonnet或者opus,全都是整齐划一的推理/思考模型,不为别的,本身的foundation model脑子不够聪明,其次脑容量小(context length),做不了动不动运行几十分钟需要吃掉几万十几万token的agent任务。Kimi K2反其道而行,foundation model,直接支持Agent,tool calling。这一点儿非常狠,意味着Kimi给所有人留下了悬念,我Foundation model的agentic能力就这么好,你等我post- training弄好,还不得起飞?

  • 引领新范式,原来的大模型由ChatGPT起了个头,虽然做的是AI,但实际上大家都叫ChatBot,也就是聊天机器人,聊天其实就圈定了一个大概范围,即Conversation,聊天嘛,你撑死了就是你一嘴我一嘴。Kimi K2把foundation model叫做:Open Agentic Intelligence。

翻译过来,就是开放代理型智能,无疑想要引领一把AI大模型的流行趋势,把本身设计为聊天机器人的foundation model,彻底转换成更加适配Agent时代的AI,说实话,我觉得非常的有野心。

这次的kimi技术报告里面有以下的重要细节。

PART 0PART 01

1 模型架构与创新设计

一共发了俩模型:

  • Kimi-K2-Base,这是为需要“完全控制微调”的研究人员准备的基础模型

  • Kimi-K2-Instruct,这是为“即插即用的通用聊天和智能体体验”而优化的训练后模型

两个都是万亿的超大规模MoE(混合专家结构),激活参数只有32B;同样的DeepSeek等一众大模型都用的MoE结构,这不稀奇,但DeepSeek V3/R1的总参数都是671B,而激活参数量比k2还多,37B。

另外,据说GPT-4有约1.8万亿总参数,分布在16个专家中,每次推理激活约2800亿参数(即激活2个专家)。

K2的激活参数量(320亿)远低于此,这表明其设计选择优先考虑了更低的推理计算成本和更快的响应速度,这意味着Kimi依旧觉得今后的几年内算力成本依旧是瓶颈(部分的符合token经济学原理),所以得出来结论,那就是越稀疏越省钱。

值得注意的是,K2的专家数量够多的,一共有384个专家,这种设计可以被理解为构建了一个庞大的“知识库”,而非一个由少数通才组成的委员会。拥有384个专家的模型,其特化潜力远比拥有16个专家(如GPT-4)的模型更为精细。

每次激活8个专家意味着,对于任何给定的任务,模型都会组建一个“专家委员会”来处理信息。庞大的专家数量暗示了一种旨在捕获极其广泛和多样化的知识领域与技能的设计哲学。这些海量的“非激活”参数构成了一个巨大的知识储备库。

这对于模型的下游应用具有重要意义。例如,针对特定任务(如法律分析或医学研究)对Kimi-K2-Base进行微调可能会非常高效。

另外K2支持128K的上下文(Context)长度,在foundation model里面算是非常大的长度来,这得益于MLA的attention机制,再加上本身Kimi起家就是靠的1百万超长上下文,所以这一点儿能实现也不奇怪。

PART 02

2 训练稳定性的主要基石:MuonClip优化器

这部分的写作非常的苏神。

原理比较复杂,简单来讲大模型在训练的时候想要的错误率是这样的,平缓下降,直到降到不能降。

但很不好意思,这种动不动就是几周甚至几个月的训练,非常有可能是你训练到一定程度,模型直接炸了。

这个现象就叫“注意力逻辑值爆炸”(exploding attention logits)。在该现象中,注意力机制中的数值(主要是attention公式里面的q和k值)会失控式增长,最终导致训练过程崩溃。

Kimi发明了MuonClip,这项技术的核心是一种名为qk-clip的创新方法。它在每次优化器更新后,直接对查询(query, q)和键(key, k)投影的权重矩阵进行重新缩放。通过这种方式,qk-clip从源头上控制了注意力逻辑值的尺度,有效防止了其爆炸性增长。

这项创新的效果非常显著,使得月之暗面能够在高达15.5万亿个tokens的数据集上预训练Kimi-K2-Base,并实现了“零训练尖峰”(zero training spikes)的记录。

效果非常好,非常平缓的下降。

这一成就揭示了大型语言模型开发中一个更深层次的现实:训练稳定性是真正的技术前沿。大家对大型语言模型的讨论往往集中在参数数量、数据规模和基准测试分数上。

然而,一个隐藏的、但可以说更为关键的前沿是训练的稳定性。像Kimi-K2这样的万亿参数模型,一次完整的训练运行可能需要耗费价值数千万甚至上亿美元的计算资源。一次“训练spike”就可能使数周的进展和巨大的财务投资付之一炬。

Kimi现在开源了,给友商省钱了,仗义。

PART 03

3 原生工具调用与Agent架构

K2最大的特色亮点之一,是将工具使用能力和Agent能力深度融入模型训练与推理接口中,它的定位为“为智能体能力精心优化”并为“工具使用、推理和自主解决问题”而设计的模型,这是一个概念上的转变。

这个能力是通过这个大规模的智能体数据模拟出来的,说白了,没有数据就没有智能,Kimi构建了这么一套流程来不断的产生数据并反哺自身。

这个过程涉及构建数百个模拟智能体,让它们尝试使用工具完成任务,并使用一个AI裁判来筛选和学习这些交互过程。此外,还辅以一个“通用强化学习”(General Reinforcement Learning)系统,在该系统中,模型充当自己的评审员,以在没有唯一正确答案的任务上进行自我提升。

简单来说,K2当裁判、生成器、环境三合一,看似是 self-play,其实是把人类数据蒸馏成“高维规则”,你看rubric提到了很多次。

说白了,虽然rubric足够的多和详细,但还会有问题:

裁判模型本身如果带有偏见,整个数据飞轮会把偏差指数级放大。更深层的问题是,当 rubric 足够细,模型其实不再是“自主学习”,而是“规则过拟合”。

不过暂时看来,K2还是挺强的,不过未来如何,得看post-training的到的推理模型。

PART 04

4 性能

这一个放最后的原因是刷榜性能评分并不能代表实际表现,只能作为参考。

K2和非推理模型相比,绝大多数在top2,少数top1,top2的也仅比Claude4差点。

在使用工具这个维度上大多数排在top1。

编程部分弱于Claude。

主要的特色在于对于K2工具使用和自主编程的测试,其实就是agent能力。在 TauCoT 工具使用基准(Tau2系列)中,Kimi-K2 在零样本情况下可以理解用户意图并正确选择工具,取得如零售场景70.6、航空56.5的高平均得分,接近甚至超过Claude等模型。

在AceBench(开放代理任务评测)中,Kimi-K2 也达到 76.5% 的准确率,与GPT-4/Claude处于同一量级。从结果看,Kimi-K2 确立了自身作为当今最强开源通用大模型之一的地位,其在知识、推理、编码各方面的表现都逼近甚至部分超越了GPT-4、Claude等业界顶尖水平。

Kimi K2 的发布标志着 2025 年大模型竞赛的赛道还有很多,比如超大规模的开源模型,摈弃chatbot而是直接原生agent能力,还有就是要想实现效率高和性能好,超级稀疏MoE或许是个解法。