Web3天空之城|城主

1. 2025年开源模型的年度回顾: 分水岭之年与"东方三巨头"的崛起

2025年被广泛认为是人工智能发展史上的一个决定性转折点。根据Interconnects.ai最新发布的《2025年开源模型年度回顾》(2025 Open Models Year in Review),这一年的核心叙事彻底颠覆了以往的行业共识。年初,全球科技界普遍认为开源模型在性能上将长期滞后于闭源模型(如OpenAI的GPT系列和Anthropic的Claude系列),仅能作为隐私敏感场景或低成本微调的替代品。然而,随着2025年的落幕,这一论断已被彻底证伪。

开源模型生态在这一年不仅实现了"追赶",更在特定领域达成了"超越"。而在这一历史性进程中,最为显著的现象莫过于中国AI实验室的集体跃升。Interconnects.ai的两位主笔Nathan Lambert和Florian Brand将这一现象总结为"东方三巨头"的确立:DeepSeek、阿里巴巴的Qwen(通义千问)以及Moonshot AI(月之暗面)的Kimi。

如果说DeepSeek R1的发布是打破平静的"惊雷",彻底改变了全球对低成本推理模型的认知;Qwen 3则凭借其强大的通用性和生态兼容性成为了开发者的"默认选项"。那么,在2025年底登场的Kimi K2 Thinking,则扮演了另一个关键的历史角色——验证者。正如年度回顾报告所言,Kimi K2是"让世界确信DeepSeek并非孤例,且中国将持续产出众多领先模型的关键力量"。

2025年开源模型生态层级分析

打开网易新闻 查看精彩图片

Interconnects.ai对2025年全球开源模型构建者进行了一个层级划分。这一层级体系不仅反映了技术实力的消长,更揭示了全球AI算力经济的重心转移。

Lambert和Brand在年度回顾中提出了一个基于"端到端模型训练能力""生态影响力"的层级评价体系。这一体系摒弃了单纯的参数规模比较,更加注重模型的实际可用性、创新性以及对闭源前沿的追赶速度。

表1:2025年全球开源模型构建者层级分布

层级分类 (Tier Classification)代表实验室/实体 (Labs / Entities)战略评价与入选理由 (Strategic Significance)前沿开源实验室 (Frontier Open Labs)

DeepSeek (深度求索)
Qwen (阿里巴巴)
Kimi Moonshot (月之暗面)

这一层级完全由中国实验室占据。

它们持续发布定义"最新技术水平"(SOTA)的模型,

在推理能力、编码能力及长文本处理上与GPT-5和Claude Opus分庭抗礼。

紧随其后 (Close Behind)

智谱
MiniMax AI (稀宇科技)
StepFun AI (阶跃星辰)

这些机构产出了极具竞争力的模型,

在特定基准测试中表现优异,

但在全球开发者社区的广泛采用度或绝对创新性上略逊于第一梯队。

值得注意的是,

该层级同样没有美国实验室的身影。

值得关注 (Noteworthy)

Nvidia (英伟达)
Google (谷歌/Gemma)
Mistral
IBM

混合了中美欧的科技巨头与初创公司。

它们生产了高质量的实用模型

(如Gemma 3, Mistral Nemo),但在推动推理能力的边界方面,未起到核心引领作用,

更多是跟随者或特定领域的工具提供者。

Kimi K2 thinking:打破"运气论"

在Kimi K2发布之前,硅谷存在一种普遍的心理防御机制:将DeepSeek R1的成功归结为一种"运气"或"单点突破",认为在硬件制裁(H100/H200禁运)的背景下,中国无法系统性地复制这种高效能模型。

然而,Kimi K2 Thinking的出现彻底粉碎了这一幻想。它证明了高效能模型的产出并非偶然,而是基于一种成熟的、可复制的方法论——即"中国模型发布剧本"(China's Model Release Playbook)。这种剧本包括:

1. 社交媒体的前置渗透:通过Twitter (X)和Hugging Face建立技术影响力,甚至让研究人员直接与西方开发者对话。

2. 极致的资本效率:在受限硬件上通过算法优化实现性能跃迁。

3. 对西方工具链的全面拥抱:迅速适配vLLM、Ollama等开源推理栈,降低使用门槛。

Interconnects.ai明确指出,Kimi K2的核心价值在于它终结了关于"DeepSeek现象是否可持续"的争论,确立了中国在开源模型领域的系统性优势。

2. 硅谷的"技术反思时刻"与东方潜流

长期以来,硅谷奉行着"规模法则"(Scaling Laws)的暴力美学,相信更大规模的算力、更多的数据和更昂贵的训练成本是通往通用人工智能(AGI)的唯一路径。然而Moonshot AI(月之暗面)作为一家中国创业公司,其最新发布的推理模型Kimi K2 Thinking,却以一种出乎意料的高效能姿态,撕开了这一共识的缺口。它不仅在技术参数上对标甚至超越了部分美国本土的顶尖模型,更关键的是,它通过开源权重(Open Weights)和极致的推理效率,迅速渗透进了美国AI基础设施的毛细血管之中。

从微软Azure的企业级模型库到NVIDIA的高性能推理微服务(NIM),从GitHub上火热的开源项目到X (Twitter)上关于"算力经济学"的激烈辩论,Kimi K2 Thinking的身影无处不在。它不再是某个被常见的西方视角审视的"模仿者",而是变成了一个被美国互联网巨头和硅谷公司使用的"工具",一个被研究的"样本",甚至在某些领域,成为了被追赶的"标杆"。

比如,由前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab及其推出的Tinker平台,正在重塑AI微调(Fine-tuning)的格局,而Kimi K2正是其首批支持的核心模型之一。在应用层,而Open Lovale等新一代AI代码编辑器通过集成Kimi K2,正在重新定义开发者的生产力经济学。

打开网易新闻 查看精彩图片

3. 思考的架构:Kimi K2 Thinking的技术解构与算力不对称

我们首先简单剖析一下Kimi K2 thinking的技术内核,方便我们理解Kimi K2 Thinking为何能在崇尚原创与硬核技术的硅谷赢得尊重。不同于早期的"聊天机器人(Chatbot)"范式,Kimi K2被明确定义为支持200到300步工具调用的"思考代理(Thinking Agent)"。这一概念的转变,恰好击中了2025年AI研发的核心痛点:如何从单纯的文本生成,转向具备长程规划与执行能力的智能体。

混合专家架构(MoE)的极致效率:万亿参数的"瘦身"艺术

Kimi K2 Thinking采用了一万亿(1 Trillion)总参数的混合专家(Mixture-of-Experts, MoE)架构,但在实际推理过程中,它仅激活320亿(32B)参数。这种超稀疏的"大存小取"的设计哲学,是其在硅谷引发热议的第一块基石。

在传统的致密模型(Dense Model)时代,运行一个万亿参数的模型需要庞大的GPU集群,这使得除了少数巨头外,几乎没有人能染指顶级AI的部署。相比 DeepSeek 为代表的MoE模型,Kimi K2采用了更高的稀疏度(48 vs 32),通过仅激活320亿参数,它使得该模型能够在相对"平民化"的推理平台上运行。

这种架构选择并非偶然,而是对当前算力瓶颈的精准回应。除了通过超稀疏的架构降低推理抽本,Moonshot 还AI采用了原生INT4量化技术与量化感知训练(Quantization-Aware Training, QAT)。这意味着模型在训练阶段就已经适应了低精度计算,从而在不牺牲推理能力的前提下,大幅降低了显存占用和带宽需求。在推理阶段,对于GPU芯片的适配度也更高,不仅可以适配上一代芯片,也能更好得适配国产推理芯片。

"交错式思考"(Interleaved Thinking):代理智能的"圣杯"

如果说MoE架构解决了"跑得动"的问题,那么"交错式思考"则解决了"跑得好"的问题。这是Kimi K2最具颠覆性的技术特性,也是让谷歌开发专家(GDE) Sam Witteveen等技术大咖在评测中赞不绝口的关键。

传统的思维链(Chain of Thought, CoT)通常是线性的:模型一次性生成所有思考步骤,然后给出结论。然而,现实世界的复杂任务往往需要"试错"和"反馈"。Kimi K2引入了"交错式思考"机制,允许模型在思考的过程中调用工具(如搜索、代码执行),观察工具的返回结果,然后基于新信息继续思考。

表2:传统CoT模型与Kimi K2 Thinking的代理能力对比

模型传统CoT模型(如GPT-o1

Kimi K2 Thinking推理模式

线性生成,一次成型

交错循环:思考-行动-观察-再思考

工具调用深度

往往作为最后一步或单次调用,通常<10次

支持200-300次连续工具调用

上下文窗口

128k

256k

容错能力

思考链一旦断裂即失败

可根据工具反馈自我修正路径

Moonshot AI官方展示的一个案例在开发者社区广为流传:为了解决一个博士级的数学问题,Kimi K2进行了23次交错的推理和工具调用,像一个真实的人类研究员一样,不断提出假设、验证假设、修正方向,最终得出正确答案。这种能力在"Humanity's Last Exam"基准测试中得到了验证,Kimi K2在工具辅助下的得分为44.9%,甚至超过了发布时的GPT-5和Claude旗舰模型。

资本效率(Capital Efficiency):打破成本神话

Kimi K2 Thinking的发布还带来了一个令硅谷震惊的经济学数据:其训练成本仅约为560万至700万美元。相比之下,GPT-4等同级别模型的训练成本据传超过1亿美元。这种20倍的资本效率差异是对OpenAI"暴力缩放定律"的一次有力修正。

Stability AI创始人Emad Mostaque指出,Kimi K2的低成本证明了通过算法优化(如使用Muon优化器解决注意力对数爆炸问题)和精细的数据工程,可以在算力受限(如使用H800芯片)的情况下触达技术前沿。这导致了硅谷创投圈风向的微妙转变:投资人开始不仅仅关注模型的性能(Performance),更开始关注模型的"训练效能比"(Performance per Dollar)。Kimi K2成为了这一新指标的标杆案例。

4. 对美国企业级市场的渗透: Tinker生态系统, 微软和英伟达等巨头的青睐

Kimi K2 Thinking的成功不仅仅在于模型本身,更在于它被迅速集成到了新兴的AI基础设施中。前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab及其推出的Tinker平台就是一个最新的例子。

2025年10月,Thinking Machines Lab推出了Tinker,并在12月12日宣布结束等待名单,全面开放,同时正式支持Kimi K2 Thinking的微调。Tinker被描述为"AI训练的云计算平台",旨在将复杂的分布式训练基础设施抽象化,让开发者可以通过简单的API调用来微调顶尖模型。

Tinker的核心价值主张包括:

LoRA优先架构:

Tinker利用低秩适应(LoRA)技术,仅需调整少量参数即可完成对万亿参数模型(如Kimi K2)的定制化训练。这使得微调成本大幅降低,让个人开发者和小企业也能拥有自己的"私有版Kimi"。

OpenAI API兼容性(Scaffolding):

Tinker推出了与OpenAI API完全兼容的推理接口(称为"Scaffolding"),这意味着开发者无需修改现有的代码库,即可将后端的GPT-4替换为在Tinker上微调过的Kimi K2。这一策略极大地降低了迁移门槛,直接挑战了OpenAI的生态锁定。

而Google、微软、亚马逊和英伟达等巨头对Kimi K2的官方集成,有着明确的指向性:他们集成的主要是Kimi K2 Thinking版本,看重的是其长程推理能力。

2025年12月8日,微软Azure AI Foundry官方博客宣布集成的模型名称确切为"Kimi K2 Thinking"。微软特别强调了该版本在"构建长视野、富工具代理(Long-horizon, tool-rich agents)"方面的优势,而非普通对话能力。

在NVIDIA的NIM微服务目录中,Kimi K2 Thinking被列为"十大最智能开源模型"之一。NVIDIA明确指出,该模型适合需要"多步推理(Multi-step reasoning)"的场景,这与仅用于快速响应的K2 Instruct版本形成了鲜明区隔。

亚马逊是在Amazon Bedrock 原生集成了Kimi K2,在 Bedrock中部署为无服务器(serverless)端点, 完整支持全套AWS生态服务; Google Cloud Vertex AI 对Kimi K2的集成方式则通过第三方代理层实现

5. 应用层破局: 编程代理和写作的文艺复兴"Open Lovable"与Kimi K2 Thinking:Agent的首选

12月最火的开源项目"Open Lovable"(网页生成工具)主要依赖Kimi K2 Thinking的能力。开发者Leonardo Grigorio在演示视频中明确提到:"Kimi K2 Thinking是我在Open Lovable中的首选模型(preferred model)。"他解释说,是因为Thinking版本的推理能力能更好地理解复杂的前端布局逻辑,虽然速度比Instruct版本慢,但"一次做对"的概率更高。

在Open Lovable的GitHub Issues中,有讨论提到如何配置Kimi K2 Thinking以利用其"交错式思考"来处理多步网页修改任务,而不是简单地生成代码。

Windsurf的用户反馈: "慢思考"与"深潜":独特的开发者体验

在Windsurf中,Kimi K2的定价被设定为0.5 Credits per prompt(每条提示消耗0.5个信用点)。对比竞品定价:GPT-5 High Reasoning在Windsurf中的定价通常为1.5至2 Credits。

对于依赖"Agentic Loop"(智能体循环)的开发者来说,成本是最大的痛点。一个复杂的代码重构任务可能需要智能体自主运行50次交互。如果使用Sonnet,成本会迅速累积;而使用Kimi K2,仅需极其低廉的固定费率。这种定价差异(10倍甚至更多)导致了大量价格敏感型开发者从Cursor迁移到Windsurf,或者在Windsurf内部将Kimi K2设为默认的"规划"和"长程推理"模型,仅在最后生成关键代码片段时切换回Claude。

用户反馈显示,Kimi K2 Thinking在Windsurf中的表现呈现出一种独特的"性格":略慢,但更深。

推理速度:Kimi K2的推理速度略低于Claude Sonnet,这使得它在简单的自动补全任务中并不是反应最快的。

深度推理:然而,在处理复杂的架构设计或Debug任务时,Kimi K2的"交错式思考"展现出巨大优势。它能够自我纠错,例如在生成代码中途意识到引用的库已废弃,并自动修正为新版库,而无需用户干预。这种"一次做对"(One-shot success)的能力,使得开发者愿意容忍其没那么快的生成速度。

机器创造力的文艺复兴:写作能力的差异化优势

除了在代码领域的硬核表现,Kimi K2 Thinking在创意写作领域也意外地获得了一批狂热的追随者。在Reddit的r/LocalLLaMA和r/SillyTavernAI社区,用户普遍认为Kimi K2的写作能力在某些维度上超越了经过严格RLHF(人类反馈强化学习)"规训"的美国模型。

用户评论指出,Kimi K2 Thinking的文本输出具有独特的"文学性"。它倾向于使用生动的意象(Vivid Imagery)和具体的感官细节,而不是抽象的总结。

"Show, Don't Tell":相比于GPT-4喜欢直接陈述"他感到很悲伤",Kimi K2更可能描写"他喉咙发紧,手指不由自主地颤抖"。这种写作风格被认为更接近人类作家的笔触。

叙事逻辑:"Thinking"模块似乎对长篇叙事的连贯性有显著帮助。模型在生成正文之前,会先在思维链中规划情节走向和人物动机,从而避免了长文本生成中常见的逻辑崩坏或人设漂移。

Kimi K2在写作领域的流行,还与其独特的后训练策略有关。在英文/国际环境里:Kimi K2模型的拒绝率极低(<7%),被用户描述为"更自由"、"不爱说教"(Less Lecturing)。

后记: 算力摩尔定律的"中国修正"

《2025 Open Models Year in Review》中,将Kimi K2定义为"去魅者"

在这个年度排名中,Moonshot AI被列入"Frontier open labs"(前沿开源实验室)的第一梯队,与DeepSeek和Qwen并列,而许多曾经辉煌的美国开源项目则被下调。这在X上引发了关于美国开源生态是否正在丧失活力的反思。

Kimi K2的出现彻底粉碎了"DeepSeek是举国体制下的偶然产物"这一论调。它证明了中国头部实验室(Moonshot AI, Alibaba Qwen, DeepSeek, Z.ai,MiniMax)已经形成了一套成熟的、可复制的方法论,能够持续产出SOTA级别的开源模型。

最后,作为Kimi K2的日常使用者之一,城主对于K2 thinking只有一个想吐槽的地方:对于coding用途(比如使用claude code里调用Kimi K2 thinking API), 目前还没有一个K2 thinking的包月订阅方式,而Kimi已经面向编程场景推出了一个Kimi K2的编程者包月订阅模式,如果这里能改成K2 thinking,就完美了:)