80%代码由Claude合并，Anthropic内部人员点破Agent真相|agent|上下文|代码|新论文|编程|调用

机器之心编辑部

最近，Anthropic 团队研究产品经理 Theodora（Theo）Chu 的一段演讲视频，引起了大家的注意。

Theo 表示，当前越来越多的开发者已经不再只是「听说过 Claude」，而是在日常工作中真正感受到效率提升。有人认为 Claude 让自己效率翻倍，也有人认为提升了 10 倍。更重要的是，Claude 已经开始深入 Anthropic 自身的工程流程，「Anthropic 内部超过 80% 的代码由 Claude 合并。」

这意味着，模型的角色正在发生变化。

模型不再只是停留在回答问题阶段，而是在一个可以反馈、验证、修正的环境里持续完成任务。「Close the Loop（闭合循环），给模型一种验证自身输出结果的方式。」

而在这场分享中，Theo 想要告诉开发者的是，「你应该如何适应这个新世界，又应该如何面向未来构建产品，而不是只为过去构建产品。」

为此，Theo 详细拆解了如何构建能够自我改进的 Agent，「真正的配置，是让 Claude 在循环、计划模式和动态工作流中持续运行。」

网友 rari@0xwhrrari 认为，「这要比大多数 300 美元的 Agent 课程都要好。」

那么，接下来，我们就来详细了解一下这场演讲到底讲了什么。

一年之内，模型失败率被大幅压低

Theo 用编程评估基准 SWE-bench Verified 举了一个例子，它由一系列 GitHub issue 组成，模型需要理解问题、修改代码，并通过测试来证明自己真正解决了任务，这是 Anthropic 内部用来观察 Claude 编程能力提升的重要评测：

一年前的 Sonnet 3.7 得分仅为 60% 左右，而到了 Opus 4.8，得分已经达到了 88%。

这意味着，一年前的模型在这些任务上的失败次数，大约是现在的 3 倍。

这也是演讲中最值得注意的地方：模型能力提升，并不只是「多做对几道题」，而是失败率正在快速下降。失败率下降之后，模型才有可能承担更长、更复杂、更接近真实工作的任务。

此外，更不可思议的是，在最新的 Mythos 和 Fable 系列模型中，该基准测试实际上已经出现接近饱和的迹象。换句话说，一些过去足够难的测试，今天可能已经不再能有效区分模型能力。

这对开发者来说是一个重要信号：如果你还在用 12 个月前的任务测试今天的模型，就很容易低估模型真正的能力边界。

而新模型这种智能的增长，具体落在了以下三个核心领域：

一是先规划，再行动

Theo 展示了同一个任务在两个不同模型上的表现：让模型一次性重建 Claude.ai 网站。

结果表明，旧模型的典型做法是，上来就开始写大量代码、调用大量工具，几乎没有充分规划。结果是，界面看起来似乎合理，但实际运行并不完整，功能也不能真正闭环。

「有点像我装宜家家具时的样子：一上来就动手，根本不看说明书，先开始拼，拼着拼着发现做错了，然后才意识到自己应该回去看说明书。」

而以 Opus 4.8 为代表的新模型则表现出了自适应思考（Adaptive thinking）的能力。它们会先在内部深思熟虑具体的规范，在预先规划的过程中及时捕捉错误（你甚至会在逻辑推理中看到它们输出「实际上……」或「算了，还是……」这样的自我修正词）。

这种先规划后行动的方式，让模型在第一次实际执行时就能高效落地，大幅减少了不必要的工具调用与代码行数。

因此，Theo 给开发者的建议是：要允许模型先思考。

产品体验也应该为这种思考留下空间：比如使用自适应思考，让模型自己判断什么时候需要思考、需要思考多久。简单问题不必让模型大动干戈，但复杂任务应该给它足够的规划空间。

二是错误恢复和自我纠正

过去很多人做 Agent，重点放在「让模型能调用更多工具」。但 Theo 强调：工具调用本身还不够，模型必须知道自己什么时候做错了。

旧模型有一个常见问题是 doom looping：模型接到任务之后，如果失败了，你告诉它：「嘿，我觉得你应该换一种方式做」。或者，环境给了它某种反馈，提示它应该做另一件事。它会说：「好的，我再试一次。」

但当它再次尝试时，往往又会回到之前同样的解法，并不会真正改变做法。

新模型在这方面进步明显。它能够读取反馈、理解失败原因，然后尝试不同路径。这样一来，模型不再只是被动执行命令，而是开始具备某种错误恢复能力。

这对 Agent 产品尤其关键。因为只要任务足够长，模型就一定会遇到错误：代码跑不通、页面点击失败、测试没有通过、用户反馈不满意、环境返回异常结果。真正有价值的 Agent，不是永远不犯错，而是犯错之后能不能恢复。

因此，Theo 认为，开发者需要重新设计模型所处的环境。环境要能给模型反馈，让模型知道自己哪里做错了。

「这也意味着，模型不会因为 doom looping 而浪费 token，而是可以用更少的 token 完成任务。」

比如，如果你正在做一个应用生成 Agent，就应该给它访问前端界面的能力，让它可以自己点击、自己测试、自己判断按钮是否可用、页面是否正常。

模型只有拿到这些验证信号，才有可能形成：执行 → 验证 → 修正 → 再执行。

而这一点，也正是前面网友 rari@0xwhrrari 认为很重要的一点：close the agent loop（闭环智能体循环），「Loop 设计，让模型能够验证自身的输出结果。」

三是模型越来越擅长在更长任务周期上运行

旧模型在长任务中经常会陷入「跟丢主线」（Losing the plots）的窘境，用户给它一个长任务，它做着做着就忘了最初目标，或在执行到一半时遗忘最初的上下文或核心指令。

而现在，模型在长程任务的上下文连贯性上有了显著突破，能够稳定地将注意力维持在 100 万个 Token 甚至更高的级别。这意味着开发者不再需要把上下文窗口切得那么碎，而是可以直接将整个代码库递给模型。

未来更合理的方式，是把更完整的任务交给模型。比如，给它整个代码库，而不是只给它某个文件；给它完整产品需求，而不是只给一个孤立函数；让它跑完整流程，而不是只完成一个局部步骤。

当规划能力、错误恢复能力和长上下文能力叠加到一起，Agent 的形态就会发生变化。

它可以先规划，再执行；执行之后，通过工具或人类反馈验证结果；如果发现问题，就调整计划，继续执行。这个循环持续进行，直到最终完成任务。

开发者该如何为未来进行构建？

因此，随着模型变得越来越智能，用户基本上可以让它运行更长时间，而它完成任务的效率和效果都会比过去更好。

那么，从战术上讲，用户现在到底应该如何为这个「未来」构建产品？也就是说，如何为正在变得越来越强的模型构建产品？

Theo 认为，开发者在产品与工程层面需要全面升级自己的研发战术：

一是主动保持野心，动态刷新评估基准（Evals）

首先，要更大胆地尝试、允许 Claude 处理更多事情，不要总是测试那些你觉得 Claude 12 个月前就能完成的任务，而应该开始思考那些 Claude 今天还做不到的任务，并持续关注这些任务。

另外，在模型快速进步之后，开发者最容易遇到的一个误判是：觉得新模型没有明显提升。其实，背后原因可能不在模型，而在 Evals。

Theo 提到，有些客户在新模型发布后会说：「我的 Evals 只提升了 1%，所以这个模型好像没强多少。」但真正用起来之后，他们又会发现，新模型在某些能力上提升非常明显，只是原来的 Evals 根本没有测到。

这说明，Evals 也会过时。

AI 时代，Evals 有点像单元测试，它可以帮助开发者判断模型是否真正具备某种能力，也可以帮助产品团队追踪模型变化对用户体验的影响。但一个好的 Eval，不能只测试今天模型已经会做的事情，还应该包含今天模型尚未完全解决、但未来用户体验真正需要的任务。

换句话说，Evals 要面向未来设计。不要只盯着眼前的客户体验，要将用户报告的最新失败模式，以及你希望应用未来发展的方向融入到测试用例中。如果某些遗留问题被证明不可解，请立刻更新更难的题目。

二是精简「脚手架」（Shrink the Scaffolding）

Theo 反复强调的另一个建议是：shrink your scaffolding，缩小模型周围的「脚手架」。

所谓「脚手架」，即在工程实践中，开发者为了修补旧模型的各种漏洞，在其周围套上的系统提示词、外部工具、代码 Harness，以及各种围绕模型搭建的约束和补丁。

比如，模型某次引用格式错了，就加一条规则；模型某次没遵守要求，就再写一段约束；模型某次调用工具失败，就在外层加更多逻辑…… 这些补丁在旧模型时代可能有用。但当新模型的指令遵循能力变强之后，旧补丁反而可能成为问题。

Theo 举了 Anthropic 自身的一个例子。团队曾一度以为新模型在 Claude.ai 的引用功能上出了 Bug，后来检查才发现，是因为新模型遵循指令的能力大幅提升，导致它极其听话地去执行了一行很久以前写在系统提示词里、但现在已经过时的引用格式指令。团队最终只需将那行过时的提示词彻底删掉，功能便恢复了正常。

这说明，开发者应当「针对意图」去编写简洁的提示词，明确最终想要的结果，而不是围绕着过去老模型的失败经验去过度包装。给模型松绑，精简「脚手架」，让它拥有更多的自主权，你才能看清它真正的天花板在哪里。

三是闭环设计，让模型验证自身的输出结果

模型要完成更复杂的任务，只会思考还不够，它还需要动作能力。

这是构建自改进 Agent 最核心的底层逻辑。既然模型已经具备了极强的错误恢复能力，就必须在工程上「闭环智能体循环」（Close the Agent Loop）：

给模型留出思考与工作的空间：引入自适应思考机制。在产品设计上允许模型进行前端思考，甚至可以通过投入度拨盘（Effort Dial）让模型可以自由上调或下调在某个复杂问题上的钻研程度。
以受控的方式开放高权限：想要发挥 Agent 的自主性，就必须赋予它在环境里采取行动的权限。Anthropic 在 Claude Code 中推出了「自动模式」分类器，它能够在「开发者的控制欲」与「模型的自主权」之间找到完美平衡，自动甄别哪些行动是安全可取的，防止模型误删环境。
提供自我质检的工具：应该为 Agent 配备诸如「Computer Use」这样的自动化验证工具，让智能体能够自己去前端到处点一点、做质检，通过环境的真实反馈发现自身的错误，从而实现代码的自我迭代与修正。

https://x.com/0xwhrrari/status/2069163624375976103