打开网易新闻 查看精彩图片

最近刷手机时,Anthropic的新闻密度高得离谱。今天发这个,明天发那个,像开了自动连播。

产品管理社区Product Compass创始人帕维尔·胡林(Paweł Huryn)也有同感。他把这些新闻按日期排了排:从美东时间2月1日到3月23日,52天里Anthropic发布了73款产品。

这条X发出的当天,Anthropic发布了Computer Use和Claude Code Channels for Teams + Enterprise。

不到24小时,Claude的Auto Mode又来了。

算下来,Anthropic每0.7天发布一个新产品,是OpenAI自称"每3天一个新功能"速度的4倍以上。有时候我稿还没写完,下一个产品已经上线了。

在之前《150万AI agent社交狂欢背后,是一场"产品大爆炸"》里,我提过"产品大爆炸"这个概念。Claude Code掀起编程革命后,整个AI圈都卷进了产品创新迭代的浪潮,"龙虾"OpenClaw就是代表。Anthropic既是这场爆炸的引领者,也是最大的受益者。

但问题是:为什么它能做到?

AI编程确实关键,用AI开发确实事半功倍。但在全球最严格的编程测试集SWE-Bench Pro里,ChatGPT-5.4和Gemini 3 Pro的成绩都比Claude Opus 4.6高。

所以AI编程只是入场券,不是胜负手。Anthropic的真正优势在于形成了技术自举的加速循环——用AI完成整个闭环。人类只负责提想法,剩下的等AI跑结果就行。

当工具开始制造工具本身,我们可能正在目睹技术奇点的早期信号。

现在是52天75款,过几天可能就是30天80款、15天100款……

Anthropic的狂奔正在逼OpenAI重新审视战略,全面模仿它的路径。

一切要从1月中旬的Cowork说起。

这个产品开发团队只有4个人,总工时10天,90%代码由AI编写。但它能根据用户描述的任务,自主完成规划、执行、交付,直接改变了许多人的工作方式。

Cowork的成功给了Anthropic信心。2月初,浪来了。

Claude上线法律插件,能审查法律文件、追踪合规任务、自动化合同审查,与Thomson Reuters等法律数据库深度集成。

发布当天,全球软件和服务类股票约2850亿美元被抛售,6个交易日总共8300亿美元。Thomson Reuters、LegalZoom等股价暴跌,软件ETF基金IGV从2026年初到2月27日下跌22.8%。

2月17日,Claude Sonnet 4.6发布。

这是Anthropic历史上第一次,Sonnet级别的模型在编程测试中超越上一代Opus。上下文窗口扩展到100万token,约75万个单词,相当于2500页文档——AI可以一次性处理整个大型代码库。

过去企业选AI服务,成本和能力是跷跷板两端。现在Anthropic把跷跷板拆了:Sonnet 4.6比Opus 4.6便宜近一半,加速企业市场向它迁移。

打开网易新闻 查看精彩图片

2月20日,Claude Code Security上线,用基于推理的扫描发现代码库中的零日漏洞。

传统安全工具像拿着通缉犯照片找人,需要不断更新规则库。Claude Code Security能理解代码逻辑,在漏洞被记录前就预判风险。

2月24日,Anthropic连发10个企业插件:投资银行插件做交易审查、估值建模;财富管理插件做投资组合分析;私募股权插件做尽职调查;还有人力资源、工程、设计、运营等插件。

它与FactSet、S&P、Thomson Reuters、RBC Wealth Management等巨头深度合作。市场再次抛售,但合作方股价反而上涨——"与Anthropic合作"成了生存信号。

它还为企业客户提供"私有插件市场",企业可开发自己的插件,将工作流、合规要求、品牌规范编码为agent,在组织内部分发。

这不是买工具,是获得可无限扩展的基础设施。

当AI大量生成代码,人类审不过来,只能交给AI自己处理。Code Review就是专门审查代码的多agent系统,自动分析逻辑、标记错误、识别漏洞,每次审查成本15到25美元。

这也是Anthropic实现AI开发自举循环的关键一环。

3月11日,Anthropic发布Excel和PowerPoint跨应用协作功能。Claude可以在两者之间无缝工作:从Excel提取财务数据、构建交易对比表,自动将估值摘要放入PPT,最后起草邮件。

信息、指令、任务历史在不同应用间流动,用户不用重复说明上下文

这解决了AI的长期痛点:记忆孤立。你在Excel里说的话,PowerPoint里它忘了。

现在用Claude Apps管理Cowork任务,agent能跨会话保持上下文和任务状态。早上手机布置任务,下午电脑打开,AI还记得你要什么、进展到哪了。

根据Ramp的数据,仅10周,首次购买AI工具的企业中,Anthropic份额从50%飙至73%,OpenAI从50%跌至27%。整体企业市场,Anthropic超40%,OpenAI 27%。

前面说过,别人的AI编程能力更强,为什么Anthropic领先?

核心不在编程,在线束架构(harness)。

线束架构不是新东西,OpenAI也在用。它的本质是让agent长时间自主运行、完成复杂任务的编排系统。

Anthropic官方blog有个比喻:AI模型是引擎,线束是让引擎持续运转的整套基础设施。它管理上下文、编排多agent协作、处理任务分解、进行状态传递,确保AI能自主工作数小时甚至更久。

Anthropic在构建长时间运行的AI编程系统时,发现了两个关键问题。

第一是上下文焦虑。任务变复杂、对话历史变长时,模型会失去连贯性。当它们认为快达到上下文限制时,会过早结束工作——像打工人眼看下班、活没干完,只能匆匆收尾。

解决方案是上下文重置(Context Reset):完全清空上下文窗口,启动新agent,但通过结构化的"交接文档"传递状态和计划。这是彻底的新开始,代价是需要精心设计交接文档。

打开网易新闻 查看精彩图片

第二是自我评估偏差。AI评估自己作品时倾向于自信称赞,即使质量平庸。你让它设计网页,它说"非常好,符合现代设计美学"——结果紫色渐变配白色卡片,丑绝人寰。

解决方案是分离生成者和评估者:一个agent生成,另一个评判。外部反馈输入后,生成者才有具体改进目标。

Anthropic采用三agent线束架构:Planner、Generator、Evaluator。

Planner把用户的简单想法扩展为完整产品规格,专注产品背景和高层技术设计,不碰细节实现——前期指定错误技术细节,错误会级联到后续。

Generator"一次一个功能"地工作,从规格文档逐个挑选实现。每个冲刺后先自评,再交给Evaluator检查。用React、Vite、FastAPI、SQLite/PostgreSQL技术栈,git版本控制。

Evaluator用Playwright MCP工具,像真实用户一样点击运行中的应用,测试UI、API、数据库状态。按产品深度、功能性、视觉设计、代码质量等标准打分,任何一项低于阈值就失败,Generator收到详细反馈。

每个冲刺前,Generator和Evaluator还会协商"冲刺合约":Generator提议构建什么、如何验证成功,Evaluator审查确保方向正确。双方通过文件沟通,确保工作忠于规格,又不过早过度指定细节。

用同一个提示词测试:创建2D复古游戏制作工具,含关卡编辑器、精灵编辑器、实体行为、可玩测试模式。

单agent运行20分钟,成本9美元。界面看起来对,实际用不起来:布局浪费空间、工作流程僵硬、游戏本身坏了,实体不响应输入。

线束模式成本是单agent的22倍,但Planner把一句话扩展为16个功能、10个冲刺的完整规格,远超单agent尝试范围。产出是可以直接发布的产品,而非"看起来能用"的半成品。

这个架构的价值不在能做什么,而在能持续做什么。单agent能完成简单任务,复杂到需要数小时或数天时就会迷失。线束架构通过分工、检查、重置,让AI像小团队一样工作。

线束不是Anthropic的发明,它的优势在于比别人更早、更系统地遇到这些问题,然后把解决方案标准化、产品化。

虽然Anthropic引领了这波浪潮,但2026年初最火的AI产品却是OpenClaw。大街小巷都是"养龙虾"攻略,已无需多言。

OpenClaw的成功恰恰证明Anthropic路线正确:真正的护城河不在模型性能,而在用AI完成整个闭环。

OpenClaw能访问电脑文件系统、执行终端命令、控制浏览器、接入社交软件,运行在用户自己电脑上,拥有所有权限。你发一句话,它自己去执行,最后返回结果。

当然它会失败,但绝大多数能成功。用户宁愿冒着巨大安全风险,给AI开放底层电脑权限,让它订票、发邮件、修Bug——对"让AI干活"的渴求,已强烈到能暂时压过风险恐惧。

OpenAI也被影响了。2026年3月16日内部会上,应用业务CEO菲吉·西莫(Fidji Simo)直言:"Anthropic的进展应该成为警钟。"

自此,OpenAI宣布从"do-it-all"转向聚焦编程工具和企业客户。计划将ChatGPT、Codex、Atlas浏览器合并为单一应用,推出类似Anthropic的插件市场。

但问题在于:即使理解策略、懂得构建线束架构,OpenAI还需要时间追赶。而在AI行业,时间就是一切。Anthropic每0.7天发布一个新产品,OpenAI耽误一秒钟都可能掉队。

一位Anthropic工程师在Cowork发布后的内部分享会上说,他们现在最头疼的不是技术,而是"产品发布会的会议室预定系统"——排期已经挤到三个月后了。