多数AI编程助手都在干一件事:让同一个模型包打天下。解析需求、理解代码库、生成回复、格式化输出——全指望一个"通才"搞定。DeepClaude换了个思路:把工作拆给两个专家,再塞进同一个Agent循环里。

分工很明确:DeepSeek R1负责想,Claude负责写。R1输出显式的思维链,Claude拿着这份"思考记录"去生成最终代码。两个模型各干各的,互不抢戏。

打开网易新闻 查看精彩图片

这个双模型循环具体怎么跑?当你发一个prompt过去,编排层会走三轮:

第一轮,推理。R1是DeepSeek专门调过推理能力的模型,它会在正式回答前吐出一个结构化的块,把思考过程摊开来。Agent拦截这段痕迹,R1的最终答案直接扔掉——只要它的思考过程。

第二轮,合成。R1的思维链被塞进Claude的上下文窗口。Claude的任务是产出实际响应:代码、修改、解释,同时把R1的推理当作一份规划文档来用。

第三轮,循环。如果是Agent任务(跑测试、读文件、重试),就在工具调用和双模型循环之间来回跳,直到目标达成。

关键不是R1比Claude聪明,或者反过来。R1的训练方向是 exhaustive step-by-step reasoning(穷尽式逐步推理),Claude的指令跟随和代码生成则是为输出质量调的。叠在一起,两者兼得,代价是多一次API跳转,推理环节的延迟大概翻倍。

成本结构也有意思。DeepSeek-R1是开源权重,托管API的单价比Claude便宜。DeepClaude setup里,推理成本的大头反而落在Claude的合成调用上,而不是R1的思维链——尽管R1通常吐出更多token。

什么时候能赢过单模型助手?Cursor、GitHub Copilot、Claude Code都是单模型一锤定音。它们快、和编辑器深度集成、自动补全和小修改够用了。但单模型在需要两种认知模式的场景会崩:

一是跨文件重构,得先理清调用关系再动手改代码;二是调试陌生代码,推理步骤得是"这玩意儿到底在干嘛",然后才谈得上修复;三是架构决策,模型得显式权衡取舍,而不是模式匹配一个常规答案。

这些任务里,单模型经常跳过推理直接跳到一个看起来靠谱的修改。DeepClaude强制分离:推理模型必须产出思维链,合成模型必须照着执行。你能先看到计划,再看到diff。

代价也是真的。自动补全那种300毫秒以内要结果的场景,DeepClaude是错的选择——你得等两次顺序API调用。但对于非平凡的Agent任务,这套分工的价值才会显出来。