30小时，1.1万行代码，Claude Sonnet 4.5 做了什么？|sdk|代码|工具包|编程|调用

全文 2,000字 | 阅读约 6 分钟

（Anthropic CPO：谈Sonnet 4.5的设计核心“品味”）

2025 年 9 月 29 日，Anthropic 发布新一代前沿模型：Claude Sonnet 4.5。这款模型的最大亮点，不是性能跑分，而是持续运行能力和任务完整度。

在一次真实测试中，Claude Sonnet 4.5 自主运行 30 小时，完成了一个类似钉钉、飞书的企业聊天应用开发。核心突破：

AI 不是生成原型，而是真的独自交付产品。

这意味着什么？

AI 第一次完整跑通了一个工程流程，从代码到部署，真正实现了生产级应用的自主开发。

在 AI 编程大战中，风向正在转变。GPT-5 推理能力刚刚引发热议，Anthropic 就凭借 Claude 夺下了“最强编程模型”的宝座。同时发布的还包括 Agent SDK（智能代理开发工具包）、升级版 Claude Code 插件、VS Code 环境集成、长任务恢复系统等一整套工程自动化基础设施。

这一次，Claude 不是来辅助你，而是告诉你：

AI，可以独立承担完整的开发任务了。

（Claude Sonnet 4.5：30小时自主开发完整应用）

“30 小时能干什么？”

在企业场景里，这不是一个惊艳的数字。但对于 AI 模型来说，能连续自主运行 30 小时并完成完整项目，是一道从未被跨过的门槛。

Anthropic 没有发 PPT，也没做演示。他们直接公布了 Claude Sonnet 4.5 的实测表现：生成超 1.1 万行代码，自动构建一个完整的企业聊天应用，直到任务完成才主动停下。

这中间，它做了这些事：

创建数据库并完成配置
注册域名、设置托管
通过 SOC 2 审计流程，确保数据合规
交付可运行、可部署、可测试的完整工程

这一能力，在业内被称为“生产级别”开发，之前从未有模型做到。

✅ 稳定性：从“会写”到“能做”

Anthropic 研究员 David Hershey 在采访中表示：

“在早期测试中，Claude 4.5 能连续处理多个相互关联的复杂任务，不仅不出错，还能自己识别进度、保持节奏。”

Cursor CEO Michael Truell 说：

“这是我见过在长周期任务里表现最稳定的编程模型。”

Windsurf CEO Jeff Wang 看到了更深层的意义：

“Claude Sonnet 4.5 不是升级，是换代。它标志着新一代 AI 编程模型的起点。”

三位行业领袖的共识：长周期任务的稳定性，才是真正的突破。

评测验证：能不能干正事

Anthropic 提供了一组权威数据：

（Claude Sonnet 4.5 在 SWE-bench Verified 评估中名列前茅）

（Claude Sonnet 4.5 是Anthropic 迄今为止最强大的模型）

在 SWE-bench Verified（真实代码修改任务）中，Claude Sonnet 4.5 排名第一，领先 GPT-4 和 Gemini；在 OSWorld（模拟实际电脑操作）中，得分从上一代的 42.2% 跃升至 61.4%，提升近 50%。

这些评测不看模型能生成多少字、答对几道题，而是看它能不能把复杂任务做完做对。

✅ 实战反馈：工程师怎么说

Canva 工程团队已经在用 Claude Sonnet 4.5，他们的反馈很真实：

“让它处理代码库工程任务，或生成产品研究模块，它都能做得很完整。”

Anthropic 产品负责人 Dianne Penn 接受采访时坦言，她自己都被惊到了：

“从 GitHub 和 Cursor 那边收到的真实反馈显示，Sonnet 4.5 在浏览器导航、系统操作上的熟练度，比上一代提升了三倍以上。”

这不只是"能理解"，而是真能动手干活。

重点突破：可交付

关键不在于模型能跑多久，而在于它真正具备了"完成一件事"的能力。在开发流程中，这有个专业术语：交付。

GPT-5 强调推理能力的提升，Claude Sonnet 4.5 则在回答另一个问题：AI 能不能真的撑起一个完整的工程环节？

答案是：能了。

第二节｜从工具到平台：Agent SDK 带来了什么？

AI 能不能真正落地，靠的从来不只是模型本身。

Anthropic 这次没有只发布 Claude Sonnet 4.5，而是连同一整套基础设施一起上线，名为：Claude Agent SDK。

它不是写给研究员的，是写给开发者的。这是一套让你能“组装专属 AI 助手”的完整工具包。

✅SDK 能做什么？

用它可以：

给 AI 设定明确目标：“帮我把客户信息处理好再导出表格”
管理 AI 的记忆：让它知道上一阶段做了什么，现在该继续什么
分配操作权限：哪些能自主完成，哪些必须等你确认
协调多个 AI：让它们配合完成更复杂的任务

这些看似复杂，其实都是工程里的基础能力，只是以前没人让 AI 来做。

这套工具包原本是 Anthropic 内部使用的，支撑着 Claude Code 的运行。现在他们决定开放给所有开发者：

“我们把支撑 Claude Code 的构建模块打包成 SDK，开发者可以用同一套机制，构建属于自己的 AI 代理。”

通俗点说：你不用从零开发，可以直接基于这套框架，快速搭建适合业务需求的 AI 助手。无论是项目执行器、数据处理工具，还是客户服务机器人，都能实现。

✅ 为什么这一步关键？

这代表一个重要转向：从使用工具，到定制助手。

就像过去你用 Excel 处理数据，现在你可以用 Excel 的组件搭建一个专门处理财务的智能工具。

Anthropic 产品负责人 Dianne Penn 直接分享了她的实践：

“我招人时，让 Claude 做深度网络搜索，筛选 LinkedIn 个人资料，生成表格方便我联系。这个流程现在可以打包成一个 Agent，每次打开就能自动运行。”

她还补充道：

“我们过去半年更新 Claude Code 时遇到的工程难题，比如权限管理、记忆存储、错误回滚，都整理进了 SDK。”

有了这套完整工具，Claude Sonnet 4.5 的意义就不一样了：AI 不再只是调用接口的“产品”，而是能嵌入业务流程、真正干活的“角色”。

能力变强是起点，能落地才是终点。

第三节｜闭环能力的核心：AI 如何“做完一件事”

很多人对“AI 写代码”的理解，还停留在补全函数、修改 bug。

但 Claude Sonnet 4.5 展示的，是另一个维度的能力：完整跑通一个任务。

✅什么是“闭环”？

在工程领域，“闭环”指的是：从接到需求，到交付成果，整个过程不需要外部干预。

具体到 AI 编程，闭环意味着：

理解任务目标
规划执行步骤
处理中间异常
验证最终结果
自主判断何时结束

这不是写得快，而是“做得完”。

1、从"会做"到"做完"的跨越

Anthropic 研究员 David Hershey 在采访中强调：

“我们关注的不是 Claude 能不能生成某个模块，而是它能不能自己安排顺序、处理中断、补全遗漏。”

这正是闭环能力的核心：过程管理。

Canva 测试团队的反馈也印证了这点：

“Claude 处理我们代码库任务时，不光能跟上逻辑，还能理解产品里的复杂规则，在不同功能模块间灵活切换。”

2、从静态到动态的进化

Dianne Penn 在采访中提到了一个对比：

“去年 10 月，Claude 还只能处理静态页面；现在它能完成整套浏览器操作，查日程、整理会议纪要、输出日报。”

产品负责人 Scott White 的比喻更直观：

“Claude 的工作方式，接近一个助理。你要开会，它能查出所有人的空档时间，看数据仪表板，总结成状态更新。”

关键转变在于：从单次响应到持续协作。

✅ 实现闭环的三个支柱

Claude 的闭环能力，依靠三项底层机制：

1. 上下文管理
通过 Agent SDK 的内存系统，记住整个任务的历史状态，避免重复或遗漏。

2. 权限机制
在需要人工确认的环节主动暂停，在可自主完成的部分自动推进。

3. 检查点系统
自动保存进度，出错时能回滚到最近的稳定状态，而不是从头开始。

这三项机制，让 AI 从“工具”变成了“执行者”。

真正的问题不是能力，是信任

当 AI 真的能完整跑完任务，决策权就转移了：不是我要不要用 AI，而是我要不要让 AI 独立完成这件事。

这不是技术问题，是协作模式的重构。

结语｜真正的转折点

Claude Sonnet 4.5 的意义，不在参数升级，不在跑分领先。

而在于：AI 第一次能把完整的工作做完。

不是生成几行代码，而是接住任务、自主推进、交付结果。

过去，AI 是辅助工具，人带着它一起做事。现在，Claude 开始回答另一个问题：AI 能不能独立完成一段工作？

这一次，能了。

这次更新真正的信号是：模型竞争的标准变了。不再比谁更聪明，而是比谁更可靠、谁能闭环。

这是 AI 落地的分水岭。

现在的问题不是它能不能做到，而是：你准备好把完整任务交给它了吗？

本文由AI深度研究院出品，内容整理自Anthropic 官方博客、TechCrunch、The Verge。未经授权，禁止转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.anthropic.com/news/claude-sonnet-4-5

https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy

https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic

https://www.youtube.com/watch?v=dGiqrsv530Y

https://x.com/tbpn/status/1972750991742349731

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵