很突然,Anthropic 决定对中国企业断供了。

9 月 5 日,Anthropic 在官网发布通告,宣布对产品未获准地区的公司停止提供服务。

「本次更新将禁止所有权结构受产品未获准地区(如中国)司法管辖区控制的公司或组织使用我们的服务,无论其运营地点位于何处。这包括由不受支持地区总部企业直接或间接持股超过 50%的实体。」

原因不得而知,或许也没有深究的价值。

结果就是,对不少开发者和企业来说,在一夜之间被挡在了全球头部大模型之外,甚至是全球最好的 Coding 大模型。

而对于国产诸多模型来说,谁能成为 Claude 的平替,是一个在当下,值得去稍微讨论的话题。

超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

01平替 Claude 的第一步,是成为 Claude Code 平替

当然,想真正成为 Claude 平替,很难。

Claude 已经是 Coding 市场的绝对主力模型,成为诸多 Coding 产品的默认或者首选模型,在 ToB 市场,Anthropic 也已经超越 OpenAI 成为企业用户最常使用的模型供应商(来自 Menlo Ventures 的年度报告,Anthropic 占比 32%,超过 OpenAI 的 25%。) .

不管是 Claude 的 coding 能力、创作能力、还是 Agent 场景下的优秀表现,都不是今天的国产大模型能够轻易追上的。

但总归还是有机会的,至少在一些细分领域里。

比如 Anthropic 今年最成功的 Coding 产品——Claude Code,成为其中的平替模型,还是有机会的。而借助 Claude Code 这样成功的产品,逐步获取开发者的心智,慢慢建立自己的 ToD/ToB 的生态,才有可能真正、全面成为 Claude 的平替,或者超过 Claude。

打开网易新闻 查看精彩图片

谁能想到这个主打命令行交互的软件会是 2025 年最潮的 Agent Coding 产品。

Claude Code 比其他的 Coding 产品强在哪里?核心是这三项:

  • 一个编码能力足够强的基础模型,尤其是 Claude Opus 4。

  • 一个能理解代码库,可靠的长上下文窗口,200K token 的 Claude ,能在一个完整的项目库中对齐项目结构,识别依赖、接口、全局变量、约束旗标。产品的很多核心功能也建立在这个底层模型能力之上。

  • Agent 和 Tool Use 能力:模型原生具备与开发者环境进行交互的工具使用能力,能够自主判断何时需要使用工具。能够端到端的调用本地工具进行复杂任务的处理。

想成为平替,起码这三项能力不能太弱,只有单纯的 Coding 能力或者长上下文,并不能保证在 Claude Code 里发挥出足够好的效果。

7 月份,从 Kimi 开始,国内这一批的 Claude Code 平替化热潮,实在是有些热闹。

先是 Kimi 发布 K2,在官方文档中首次提供了与 Claude Code 完整兼容的接入指南,可以直接在 Claude Code 中使用 K2 模型。

阿里在 7 月下旬上线 Qwen3-Coder 编程模型,还开启了「每天 2,000 次免费调用」的活动。

7 月底,智谱发布 GLM-4.5,支持 Claude Code,还上线了编程 API 「50 元包月」套餐。

8 月 20 日,DeepSeek 正式发布 V3.1 版本,并同步开通 Anthropic API 协议支持,也加入这场平替大赛。

但平替,就有平替的问题,代码生成能力、上下文长度、Agent 工具的调用能力上,总有一块短板,让人用得不是那么尽兴。

比如 K2 ,SWE-bench 评测达到 65.8 分,代码能力上基本实现了平替效果。但受限于 128K 的上下文窗口,一些较为复杂的任务里,表现就没有那么好。

但在 Anthropic 发布公告的同一天,Kimi 更新的 K2 0905 版本,针对这三项都做了能力的提升。

首先是 Coding 能力。

打开网易新闻 查看精彩图片

相比 K2 0711 版本又有提升,前端编程的体验也得到了很好的提升。

然后是上下文长度的提升,从 128K 升级到 256K,为复杂长线任务提供更好的支持。这次直接超过了 Claude 系列标配的 200K 上下文长度(Claude Sonnet 4 的 1M 上下文需要单独开通,价格更贵)。

还有一贯表现优秀的 Tool Use 能力,Kimi 官方声称,借助于 Token Enforcer 的能力,官方 API 可以保证toolcall 100% 格式正确。并且支持 WebSearch Tool,提供更好的 K2 + Claude Code 使用体验。

K2 高速版的 Token 输出速度也提高到了 60-100 Token/s ,保证 coding 时的流畅体验。

可以说,是个不错的 Claude Code 平替。

02大家都有机会,但 Kimi 更早下场了

在 K2 尝试兼容 Claude Code 之后,Qwen 3、智谱的 GLM-4.5、DeepSeek V3.1 也都提供了支持 Claude Code 的能力,这甚至已经成为国产模型证明自己编程能力的一种方式。

从最近的各种评测来看,每个模型都有机会,Kimi 似乎更早瞄准了这条路线,把时间拉远一些,也可以从这两个模型的过往技术发展上纵向看一看。

都是长上下文的第一波尝鲜者

2023 年 7 月,Anthropic 发布 Claude 2,将当时上下文窗口的长度提高到 100K,11 月发布的 Claude 2.1 将上下文窗口长度再度翻倍,增加到 200K。这一年 3 月发布的 GPT-4 的上下文是 32K,11 月发布的 GPT-4 Turbo 是 128K。

2023 年 11 月上线的 Kimi,初始就支持 20 万汉字的上下文,随后发布的 api 也提供了 moonshot-v1-128k 的版本。

那时候大家的共识是,长上下文能够解决很多问题,长链路任务、跨文档推理、代码生成等需求,都因更大的上下文窗口而变得可行。

Kimi 在 2024 年 3 月份开启了 200 万字(2M 左右)上下文的内测,当时他们甚至宣称「Long Context 可以解决 90% 的模型定制问题」。后续 200 万字上下文的测试悄悄从 Kimi app 中下线。在今年我们对月之暗面 Infra 负责人许欣然的采访中,他坦言说道,随着上下文长度的增强,带来的任务复杂度,对当时的模型来说,难度太大了。

「到了 128K,并不是说智能水平下降,而是任务本身变难了。

就好比我用 20 个字能描述的逻辑,复杂度是有限的,但是 1000 个字我能组合出超级复杂的规则。这个时候模型的智能就不够用了。

所以做到 128K 的时候,我们很明显地感受到模型还是不够聪明。后来 200 万字上下文上了一阵我们其实也下了,就是觉得智能水平不够,它能读那么长,但读完后表现并不聪明。」

看起来简单的上下文窗口,做起来才发现,其实很难。就连 Anthropic,也是直到 Claude Sonnet 4 才提供 1M 上下文的测试版本,也没有全员开放。

虽然 K2 的能力更强了,但 7 月份发布的版本是 128K 的上下文窗口,0905 版本才提高到 256K,超过了 Claude Sonnet 4 默认的 200K。相比 2M 虽然小了很多,但经过这一年的踩坑,我相信,现在的 Kimi 对于上下文的理解和落地,应该是更有把握了。

几乎同时间支持 Context Caching

用户侧之外,对于开发者这边,尤其是 API 端的一些技术尝试,双方的节奏也意外有些同步。

2024 年 6 月,Kimi 开发者平台提供了 Context Caching(上下文缓存)的内测,是国内率先面向开发者提供上下文缓存API的大模型平台。

同年 8 月,Anthropic 宣布推出 Prompt Caching 功能,虽然名字不同,但功能实现效果是一样的,都是为了降低开发者在长上下文、高并发和文档问答等场景中的成本,让模型发挥更大的价值。

Google Gemini 1.5 Pro 同年 6 月份支持该功能,OpenAI 在 2024 年 12 月支持该功能。而国内模型里,Kimi、豆包、Qwen 和 DeepSeek 都提供了该功能,但其他模型,目前都没有找到明确的说明文档。

对开发者更友好,可以说两家是殊途同归。

专注文本模型,专注 Agentic

如果我们横向看各家公司的基础模型的迭代和发展,Anthropic 和 Kimi 无疑是其中最「最专注的」。

Anthropic:Claude 1、1.3、2、2.1、3、3.5、3.7、4、4.1,专注文本模型,没有图片生成、视频生成等多模态相关的基础模型,推出了混合推理模型,但并没有单独的推理模型。

打开网易新闻 查看精彩图片

Claude 官方支持的模型列表

Kimi:moonshot-v1、k0-math、k1 视觉思考模型、k1.5 多模态思考模型、Kimi-VL-A3B、Kimi-Dev-72B 以及 K2。专注文本和推理模型。虽然有 Kimi-Audio-7B 这样的音频模型,但和 Kimi-Dev-72B 一样,都是基于 Qwen 模型的 post train,练手之作。核心还是 K1.5 和 K2,而且出乎意料的是,K2 甚至不是一个混合推理模型,是个专注 Agent 的非推理模型。

打开网易新闻 查看精彩图片

Kimi 目前提供的模型 list。

杨植麟在 7 月份时,对此解释到:「Agent 的(L3)上限取决于,你有很强的 Reasoning(L2、推理)能力,但并不是必须先有 Reasoning。……你可以认为 Claude 的路线就是 bet(押注)这一点:它在 Reasoning 上做得不是特别多,但在 Agent 上做得非常好。这背后是不同技术路径的 bet(押注)。

我们希望 K2 能参与到 K3 的开发,如果你没有 Agentic 能力,很难做到这件事。

我们希望它(K2)有好的 Agentic 能力。你通过各种强化学习,或者对工具和环境的模拟,让它能有比较好的泛化性。

对于一个 Agentic 模型来讲,现在最大挑战是在模型的泛化上。」

03Coding 只是第一步,Agent 才是未来

兼容 Claude Code、成为 Claude 在 coding 领域的平替,或许是 Kimi 迈出的第一步,而它的终极目标,有可能是成为中国 AI 生态中最具「Agentic」特质的产品。这不仅仅是代码能力的竞争,更关系到下一代 AI 的核心竞争力——智能体(Agent)的构建与落地。

Kimi 的选择,既是技术战略,也是生态博弈。

首先,是 K2 的开源。在国内外大模型公司中,开源往往被视为加速创新、吸引开发者、构建生态的关键杠杆。Kimi 并未将自身能力封闭于「产品」之内,而是通过开放接口、共享工具集,主动拥抱开发者社区。这一策略不仅提升了模型的可扩展性,更让 Kimi 能够快速吸收外部创新,形成「众创」合力。

Kimi 的一位工程师,在跟我们聊起 K2 开源时曾说:

「你得留在场上,而现在留在场上的唯一方法就是证明你的技术够好。你越开源,别人其实会越 follow 你的东西,对你来说成本反而低。会有大量的人在我们的基础上做了好多东西,包括帮我们做模型量化什么的。其实开源的好处在这,让公司可以更专注去快速迭代下一个模型。

Agent 是今天绝对的赛点,几乎所有头部模型公司都在强调「Agentic」——即模型不仅能生成内容,更能自主决策、调用工具、完成复杂任务。无论是 Kimi、Claude,还是 Qwen、智谱,大家都在讲「端到端的智能任务编排」,都在追求「工具使用能力」的极致。Kimi 的 Tool Use 能力、格式化 toolcall、WebSearch Tool 支持,都是围绕 Agent 能力打磨的细节。

彭博社最近爆料,DeepSeek 的下一个模型也将聚焦 Agent,只需要少量提示词,就能帮用户执行复杂操作,并且还能根据历史操作自我进化和学习。

也就是说,谁能率先实现真正的 Agent 化,谁就能定义下一代大模型的核心价值。

Claude 在这一点上已经给出了范例:它不仅能写代码,更能自主调用多种工具、整合外部知识,完成复杂的多步任务。而 Kimi 显然也在追赶甚至试图超越这一方向——无论是对 Tool Use 的极致追求,还是对 Agentic 能力的持续打磨,都指向了同一个未来。

总之,Coding 只是序章,Agent 才是主线。国产大模型的下一个决胜场,或许已经悄然开启。

转载原创文章请添加微信:founderparker