全文 2,000字 | 阅读约 6 分钟
(Anthropic CPO:谈Sonnet 4.5的设计核心“品味”)
2025 年 9 月 29 日,Anthropic 发布新一代前沿模型:Claude Sonnet 4.5。这款模型的最大亮点,不是性能跑分,而是持续运行能力和任务完整度。
在一次真实测试中,Claude Sonnet 4.5 自主运行 30 小时,完成了一个类似钉钉、飞书的企业聊天应用开发。 核心突破:
AI 不是生成原型,而是真的独自交付产品。
这意味着什么?
AI 第一次完整跑通了一个工程流程,从代码到部署,真正实现了生产级应用的自主开发。
在 AI 编程大战中,风向正在转变。GPT-5 推理能力刚刚引发热议,Anthropic 就凭借 Claude 夺下了“最强编程模型”的宝座。同时发布的还包括 Agent SDK(智能代理开发工具包)、升级版 Claude Code 插件、VS Code 环境集成、长任务恢复系统等一整套工程自动化基础设施。
这一次,Claude 不是来辅助你,而是告诉你:
AI,可以独立承担完整的开发任务了。
(Claude Sonnet 4.5:30小时自主开发完整应用)
“30 小时能干什么?”
在企业场景里,这不是一个惊艳的数字。但对于 AI 模型来说,能连续自主运行 30 小时并完成完整项目,是一道从未被跨过的门槛。
Anthropic 没有发 PPT,也没做演示。他们直接公布了 Claude Sonnet 4.5 的实测表现:生成超 1.1 万行代码,自动构建一个完整的企业聊天应用,直到任务完成才主动停下。
这中间,它做了这些事:
创建数据库并完成配置
注册域名、设置托管
通过 SOC 2 审计流程,确保数据合规
交付可运行、可部署、可测试的完整工程
这一能力,在业内被称为“生产级别”开发,之前从未有模型做到。
✅ 稳定性:从“会写”到“能做”
Anthropic 研究员 David Hershey 在采访中表示:
“在早期测试中,Claude 4.5 能连续处理多个相互关联的复杂任务,不仅不出错,还能自己识别进度、保持节奏。”
Cursor CEO Michael Truell 说:
“这是我见过在长周期任务里表现最稳定的编程模型。”
Windsurf CEO Jeff Wang 看到了更深层的意义:
“Claude Sonnet 4.5 不是升级,是换代。它标志着新一代 AI 编程模型的起点。”
三位行业领袖的共识:长周期任务的稳定性,才是真正的突破。
评测验证:能不能干正事
Anthropic 提供了一组权威数据:
(Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅)
(Claude Sonnet 4.5 是Anthropic 迄今为止最强大的模型)
在 SWE-bench Verified(真实代码修改任务)中,Claude Sonnet 4.5 排名第一,领先 GPT-4 和 Gemini;在 OSWorld(模拟实际电脑操作)中,得分从上一代的 42.2% 跃升至 61.4%,提升近 50%。
这些评测不看模型能生成多少字、答对几道题,而是看它能不能把复杂任务做完做对。
✅ 实战反馈:工程师怎么说
Canva 工程团队已经在用 Claude Sonnet 4.5,他们的反馈很真实:
“让它处理代码库工程任务,或生成产品研究模块,它都能做得很完整。”
Anthropic 产品负责人 Dianne Penn 接受采访时坦言,她自己都被惊到了:
“从 GitHub 和 Cursor 那边收到的真实反馈显示,Sonnet 4.5 在浏览器导航、系统操作上的熟练度,比上一代提升了三倍以上。”
这不只是"能理解",而是真能动手干活。
重点突破:可交付
关键不在于模型能跑多久,而在于它真正具备了"完成一件事"的能力。在开发流程中,这有个专业术语:交付。
GPT-5 强调推理能力的提升,Claude Sonnet 4.5 则在回答另一个问题:AI 能不能真的撑起一个完整的工程环节?
答案是:能了。
第二节|从工具到平台:Agent SDK 带来了什么?
AI 能不能真正落地,靠的从来不只是模型本身。
Anthropic 这次没有只发布 Claude Sonnet 4.5,而是连同一整套基础设施一起上线,名为:Claude Agent SDK。
它不是写给研究员的,是写给开发者的。这是一套让你能“组装专属 AI 助手”的完整工具包。
✅SDK 能做什么?
用它可以:
给 AI 设定明确目标:“帮我把客户信息处理好再导出表格”
管理 AI 的记忆:让它知道上一阶段做了什么,现在该继续什么
分配操作权限:哪些能自主完成,哪些必须等你确认
协调多个 AI:让它们配合完成更复杂的任务
这些看似复杂,其实都是工程里的基础能力,只是以前没人让 AI 来做。
这套工具包原本是 Anthropic 内部使用的,支撑着 Claude Code 的运行。现在他们决定开放给所有开发者:
“我们把支撑 Claude Code 的构建模块打包成 SDK,开发者可以用同一套机制,构建属于自己的 AI 代理。”
通俗点说:你不用从零开发,可以直接基于这套框架,快速搭建适合业务需求的 AI 助手。无论是项目执行器、数据处理工具,还是客户服务机器人,都能实现。
✅ 为什么这一步关键?
这代表一个重要转向:从使用工具,到定制助手。
就像过去你用 Excel 处理数据,现在你可以用 Excel 的组件搭建一个专门处理财务的智能工具。
Anthropic 产品负责人 Dianne Penn 直接分享了她的实践:
“我招人时,让 Claude 做深度网络搜索,筛选 LinkedIn 个人资料,生成表格方便我联系。这个流程现在可以打包成一个 Agent,每次打开就能自动运行。”
她还补充道:
“我们过去半年更新 Claude Code 时遇到的工程难题,比如权限管理、记忆存储、错误回滚,都整理进了 SDK。”
有了这套完整工具,Claude Sonnet 4.5 的意义就不一样了:AI 不再只是调用接口的“产品”,而是能嵌入业务流程、真正干活的“角色”。
能力变强是起点,能落地才是终点。
第三节|闭环能力的核心:AI 如何“做完一件事”
很多人对“AI 写代码”的理解,还停留在补全函数、修改 bug。
但 Claude Sonnet 4.5 展示的,是另一个维度的能力:完整跑通一个任务。
✅什么是“闭环”?
在工程领域,“闭环”指的是:从接到需求,到交付成果,整个过程不需要外部干预。
具体到 AI 编程,闭环意味着:
理解任务目标
规划执行步骤
处理中间异常
验证最终结果
自主判断何时结束
这不是写得快,而是“做得完”。
1、从"会做"到"做完"的跨越
Anthropic 研究员 David Hershey 在采访中强调:
“我们关注的不是 Claude 能不能生成某个模块,而是它能不能自己安排顺序、处理中断、补全遗漏。”
这正是闭环能力的核心:过程管理。
Canva 测试团队的反馈也印证了这点:
“Claude 处理我们代码库任务时,不光能跟上逻辑,还能理解产品里的复杂规则,在不同功能模块间灵活切换。”
2、从静态到动态的进化
Dianne Penn 在采访中提到了一个对比:
“去年 10 月,Claude 还只能处理静态页面;现在它能完成整套浏览器操作,查日程、整理会议纪要、输出日报。”
产品负责人 Scott White 的比喻更直观:
“Claude 的工作方式,接近一个助理。你要开会,它能查出所有人的空档时间,看数据仪表板,总结成状态更新。”
关键转变在于:从单次响应到持续协作。
✅ 实现闭环的三个支柱
Claude 的闭环能力,依靠三项底层机制:
1. 上下文管理
通过 Agent SDK 的内存系统,记住整个任务的历史状态,避免重复或遗漏。
2. 权限机制
在需要人工确认的环节主动暂停,在可自主完成的部分自动推进。
3. 检查点系统
自动保存进度,出错时能回滚到最近的稳定状态,而不是从头开始。
这三项机制,让 AI 从“工具”变成了“执行者”。
真正的问题不是能力,是信任
当 AI 真的能完整跑完任务,决策权就转移了:不是我要不要用 AI, 而是我要不要让 AI 独立完成这件事。
这不是技术问题,是协作模式的重构。
结语|真正的转折点
Claude Sonnet 4.5 的意义,不在参数升级,不在跑分领先。
而在于:AI 第一次能把完整的工作做完。
不是生成几行代码,而是接住任务、自主推进、交付结果。
过去,AI 是辅助工具,人带着它一起做事。现在,Claude 开始回答另一个问题:AI 能不能独立完成一段工作?
这一次,能了。
这次更新真正的信号是:模型竞争的标准变了。不再比谁更聪明,而是比谁更可靠、谁能闭环。
这是 AI 落地的分水岭。
现在的问题不是它能不能做到,而是:你准备好把完整任务交给它了吗?
本文由AI深度研究院出品,内容整理自Anthropic 官方博客、TechCrunch、The Verge。未经授权,禁止转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.anthropic.com/news/claude-sonnet-4-5
https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy
https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic
https://www.youtube.com/watch?v=dGiqrsv530Y
https://x.com/tbpn/status/1972750991742349731
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
热门跟贴