全文 2,000字 | 阅读约 6 分钟

 30小时,1.1万行代码,Claude Sonnet 4.5 做了什么?
打开网易新闻 查看更多视频
30小时,1.1万行代码,Claude Sonnet 4.5 做了什么?

Anthropic CPO:谈Sonnet 4.5的设计核心“品味”)

2025 年 9 月 29 日,Anthropic 发布新一代前沿模型:Claude Sonnet 4.5。这款模型的最大亮点,不是性能跑分,而是持续运行能力和任务完整度。

在一次真实测试中,Claude Sonnet 4.5 自主运行 30 小时,完成了一个类似钉钉、飞书的企业聊天应用开发。 核心突破:

AI 不是生成原型,而是真的独自交付产品。

这意味着什么?

AI 第一次完整跑通了一个工程流程,从代码到部署,真正实现了生产级应用的自主开发。

在 AI 编程大战中,风向正在转变。GPT-5 推理能力刚刚引发热议,Anthropic 就凭借 Claude 夺下了“最强编程模型”的宝座。同时发布的还包括 Agent SDK(智能代理开发工具包)、升级版 Claude Code 插件、VS Code 环境集成、长任务恢复系统等一整套工程自动化基础设施。

这一次,Claude 不是来辅助你,而是告诉你:

AI,可以独立承担完整的开发任务了。

(Claude Sonnet 4.5:30小时自主开发完整应用)

“30 小时能干什么?”

在企业场景里,这不是一个惊艳的数字。但对于 AI 模型来说,能连续自主运行 30 小时并完成完整项目,是一道从未被跨过的门槛。

Anthropic 没有发 PPT,也没做演示。他们直接公布了 Claude Sonnet 4.5 的实测表现:生成超 1.1 万行代码,自动构建一个完整的企业聊天应用,直到任务完成才主动停下。

这中间,它做了这些事:

  • 创建数据库并完成配置

  • 注册域名、设置托管

  • 通过 SOC 2 审计流程,确保数据合规

  • 交付可运行、可部署、可测试的完整工程

这一能力,在业内被称为“生产级别”开发,之前从未有模型做到。

✅ 稳定性:从“会写”到“能做”

Anthropic 研究员 David Hershey 在采访中表示:

“在早期测试中,Claude 4.5 能连续处理多个相互关联的复杂任务,不仅不出错,还能自己识别进度、保持节奏。”

Cursor CEO Michael Truell 说:

“这是我见过在长周期任务里表现最稳定的编程模型。”

Windsurf CEO Jeff Wang 看到了更深层的意义:

“Claude Sonnet 4.5 不是升级,是换代。它标志着新一代 AI 编程模型的起点。”

三位行业领袖的共识:长周期任务的稳定性,才是真正的突破。

评测验证:能不能干正事

Anthropic 提供了一组权威数据:

(Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅)

(Claude Sonnet 4.5 是Anthropic 迄今为止最强大的模型)

在 SWE-bench Verified(真实代码修改任务)中,Claude Sonnet 4.5 排名第一,领先 GPT-4 和 Gemini;在 OSWorld(模拟实际电脑操作)中,得分从上一代的 42.2% 跃升至 61.4%,提升近 50%。

这些评测不看模型能生成多少字、答对几道题,而是看它能不能把复杂任务做完做对

✅ 实战反馈:工程师怎么说

Canva 工程团队已经在用 Claude Sonnet 4.5,他们的反馈很真实:

“让它处理代码库工程任务,或生成产品研究模块,它都能做得很完整。”

Anthropic 产品负责人 Dianne Penn 接受采访时坦言,她自己都被惊到了:

“从 GitHub 和 Cursor 那边收到的真实反馈显示,Sonnet 4.5 在浏览器导航、系统操作上的熟练度,比上一代提升了三倍以上。”

这不只是"能理解",而是真能动手干活。

重点突破:可交付

关键不在于模型能跑多久,而在于它真正具备了"完成一件事"的能力。在开发流程中,这有个专业术语:交付

GPT-5 强调推理能力的提升,Claude Sonnet 4.5 则在回答另一个问题:AI 能不能真的撑起一个完整的工程环节

答案是:能了。

第二节|从工具到平台:Agent SDK 带来了什么?

AI 能不能真正落地,靠的从来不只是模型本身。

Anthropic 这次没有只发布 Claude Sonnet 4.5,而是连同一整套基础设施一起上线,名为:Claude Agent SDK

它不是写给研究员的,是写给开发者的。这是一套让你能“组装专属 AI 助手”的完整工具包

SDK 能做什么?

用它可以:

  • 给 AI 设定明确目标:“帮我把客户信息处理好再导出表格”

  • 管理 AI 的记忆:让它知道上一阶段做了什么,现在该继续什么

  • 分配操作权限:哪些能自主完成,哪些必须等你确认

  • 协调多个 AI:让它们配合完成更复杂的任务

这些看似复杂,其实都是工程里的基础能力,只是以前没人让 AI 来做。

这套工具包原本是 Anthropic 内部使用的,支撑着 Claude Code 的运行。现在他们决定开放给所有开发者:

“我们把支撑 Claude Code 的构建模块打包成 SDK,开发者可以用同一套机制,构建属于自己的 AI 代理。”

通俗点说:你不用从零开发,可以直接基于这套框架,快速搭建适合业务需求的 AI 助手。无论是项目执行器、数据处理工具,还是客户服务机器人,都能实现。

✅ 为什么这一步关键?

这代表一个重要转向:从使用工具,到定制助手

就像过去你用 Excel 处理数据,现在你可以用 Excel 的组件搭建一个专门处理财务的智能工具。

Anthropic 产品负责人 Dianne Penn 直接分享了她的实践:

“我招人时,让 Claude 做深度网络搜索,筛选 LinkedIn 个人资料,生成表格方便我联系。这个流程现在可以打包成一个 Agent,每次打开就能自动运行。”

她还补充道:

“我们过去半年更新 Claude Code 时遇到的工程难题,比如权限管理、记忆存储、错误回滚,都整理进了 SDK。”

有了这套完整工具,Claude Sonnet 4.5 的意义就不一样了:AI 不再只是调用接口的“产品”,而是能嵌入业务流程、真正干活的“角色”。

能力变强是起点,能落地才是终点。

第三节|闭环能力的核心:AI 如何“做完一件事”

很多人对“AI 写代码”的理解,还停留在补全函数、修改 bug。

但 Claude Sonnet 4.5 展示的,是另一个维度的能力:完整跑通一个任务

什么是“闭环”?

在工程领域,“闭环”指的是:从接到需求,到交付成果,整个过程不需要外部干预。

具体到 AI 编程,闭环意味着:

  • 理解任务目标

  • 规划执行步骤

  • 处理中间异常

  • 验证最终结果

  • 自主判断何时结束

这不是写得快,而是“做得完”。

1、从"会做"到"做完"的跨越

Anthropic 研究员 David Hershey 在采访中强调:

“我们关注的不是 Claude 能不能生成某个模块,而是它能不能自己安排顺序、处理中断、补全遗漏。”

这正是闭环能力的核心:过程管理

Canva 测试团队的反馈也印证了这点:

“Claude 处理我们代码库任务时,不光能跟上逻辑,还能理解产品里的复杂规则,在不同功能模块间灵活切换。”

2、从静态到动态的进化

Dianne Penn 在采访中提到了一个对比:

“去年 10 月,Claude 还只能处理静态页面;现在它能完成整套浏览器操作,查日程、整理会议纪要、输出日报。”

产品负责人 Scott White 的比喻更直观:

“Claude 的工作方式,接近一个助理。你要开会,它能查出所有人的空档时间,看数据仪表板,总结成状态更新。”

关键转变在于:从单次响应到持续协作。

✅ 实现闭环的三个支柱

Claude 的闭环能力,依靠三项底层机制:

1. 上下文管理
通过 Agent SDK 的内存系统,记住整个任务的历史状态,避免重复或遗漏。

2. 权限机制
在需要人工确认的环节主动暂停,在可自主完成的部分自动推进。

3. 检查点系统
自动保存进度,出错时能回滚到最近的稳定状态,而不是从头开始。

这三项机制,让 AI 从“工具”变成了“执行者”。

真正的问题不是能力,是信任

当 AI 真的能完整跑完任务,决策权就转移了:不是我要不要用 AI, 而是我要不要让 AI 独立完成这件事。

这不是技术问题,是协作模式的重构。

结语|真正的转折点

Claude Sonnet 4.5 的意义,不在参数升级,不在跑分领先。

而在于:AI 第一次能把完整的工作做完

不是生成几行代码,而是接住任务、自主推进、交付结果。

过去,AI 是辅助工具,人带着它一起做事。现在,Claude 开始回答另一个问题:AI 能不能独立完成一段工作?

这一次,能了。

这次更新真正的信号是:模型竞争的标准变了。不再比谁更聪明,而是比谁更可靠、谁能闭环

这是 AI 落地的分水岭。

现在的问题不是它能不能做到,而是:你准备好把完整任务交给它了吗?

本文由AI深度研究院出品,内容整理自Anthropic 官方博客、TechCrunch、The Verge。未经授权,禁止转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.anthropic.com/news/claude-sonnet-4-5

https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy

https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic

https://www.youtube.com/watch?v=dGiqrsv530Y

https://x.com/tbpn/status/1972750991742349731

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵