打开网易新闻 查看精彩图片

刷手机的时候,我一度怀疑Anthropic是不是把新闻稿设成了定时发送。今天这个功能,明天那个更新,密度高到像是AI在给自己写周报。

产品管理社区Product Compass创始人帕维尔·胡林(Paweł Huryn)也有同感。他把Anthropic的新闻整理成了一份日历:从美东时间2月1日到3月23日,52天内发布了73款产品。这条X发出的当天,Anthropic又更新了Computer Use和Claude Code Channels for Teams + Enterprise。不到24小时,Auto Mode也来了。

算下来,Anthropic每0.7天就发布一个新产品,是OpenAI自称"每3天一个新功能"速度的4倍以上。我这边稿子还没写完,那边下一个产品已经上线了。

我之前提过"产品大爆炸"的概念——Claude Code掀起编程革命后,整个AI圈都卷入了产品创新迭代的浪潮,"龙虾"OpenClaw就是典型代表。Anthropic既是这场爆炸的引领者,也是最大的受益者。

但问题是:为什么偏偏是Anthropic?

AI编程当然重要,用AI开发确实事半功倍。可在全球最严格的编程测试集SWE-Bench Pro里,ChatGPT-5.4和Gemini 3 Pro的成绩都比Claude Opus 4.6要高。

所以AI编程只是入场券, Anthropic的杀手锏在于形成了技术自举的加速循环——用AI完成整个闭环。人类只需要提供一个想法,然后等AI跑出结果。当工具开始制造工具本身,我们可能正在目睹技术奇点的早期信号。

52天75款产品的纪录,过几天或许就会变成30天80款、15天100款……

这股压力已经传导到了OpenAI。1月中旬,Anthropic发布了Cowork——一个4人团队、10天工期、90%代码由AI编写的产品。它能根据任务描述自主规划、执行、交付,直接改变了许多人的工作方式。

Cowork的成功给了Anthropic信心。2月初,浪来了。

Claude法律插件上线,能审查文件、追踪合规、自动化合同审查,与Thomson Reuters等数据库深度集成。单日引发全球软件和服务类股票约2850亿美元抛售,6个交易日累计8300亿美元。Thomson Reuters、LegalZoom股价暴跌,软件ETF基金IGV从2026年初至2月27日下跌22.8%。

2月17日,Claude Sonnet 4.6发布。这是Anthropic历史上首次,Sonnet级别模型在编程测试中超越上一代Opus。上下文窗口扩展到100万token,约75万单词,相当于2500页文档,AI可以一次性处理整个大型代码库。

过去企业选AI服务,成本和能力是跷跷板两端。Anthropic直接把跷跷板拆了——Sonnet 4.6比Opus 4.6便宜近一半,加速企业市场向自己迁移。

2月20日,Claude Code Security上线。传统安全扫描工具需要不断更新规则库,像拿着通缉犯照片在街上找人。这款工具能发现从未见过的漏洞模式,理解代码逻辑,在问题被记录前就预判风险。

2月24日,Anthropic连发10个企业插件:投资银行插件做交易审查、估值建模;财富管理插件做投资组合分析;私募股权插件做尽职调查;人力资源插件处理入职材料、品牌规范;还有工程、设计、运营等。

打开网易新闻 查看精彩图片

与FactSet、S&P、Thomson Reuters、RBC Wealth Management等巨头深度合作。市场再次抛售,但合作方股价反而上涨——"与Anthropic合作"成了生存之道。

Anthropic还为企业客户提供"私有插件市场",企业可开发自己的插件,将特有工作流、合规要求、品牌规范编码为agent,在组织内部分发。这不是买一个工具,而是获得可无限扩展的基础设施。

当AI大量生成代码,人类审查不过来,只能交给AI自己处理。Code Review就是专门审查代码的多agent系统,自动分析逻辑、标记错误、识别漏洞,每次审查成本15到25美元。这也是Anthropic实现AI开发自举循环的关键一环。

3月11日,Anthropic发布Excel和PowerPoint跨应用协作功能。Claude可以在两者之间无缝工作:从Excel提取财务数据、构建交易对比表,自动将估值摘要放入演示文稿,最后起草邮件。信息、指令、任务历史在不同应用间流动,用户无需重复说明上下文

这解决了一个长期痛点:AI的记忆是孤立的。你在Excel里告诉它的事,到了PowerPoint它就忘了。现在用Claude Apps管理Cowork任务,agent可以跨会话保持上下文和任务状态。早上手机布置任务,下午电脑打开,AI还记得你要什么、进展到哪了。

Ramp的数据显示,仅10周,首次购买AI工具的企业中,Anthropic份额从50%飙升至73%,OpenAI从50%跌至27%。整体企业市场中,Anthropic超过40%,OpenAI为27%。

别人AI编程能力更强,为什么Anthropic领先?核心不在编程,而在于线束架构(harness)。

线束架构不是新东西,OpenAI也在用。本质是让agent长时间自主运行、完成复杂任务的编排系统。Anthropic官方blog的比喻很准:如果把AI模型比作引擎,线束就是让引擎持续运转的整套基础设施。它管理上下文、编排多agent协作、处理任务分解、进行状态传递,确保AI能自主工作数小时甚至更久。

Anthropic在构建长时间运行的AI编程系统时,发现了两个关键问题。

第一是上下文焦虑。任务复杂、对话历史变长时,模型会丧失连贯性。当它们认为快达到上下文限制,会过早结束工作——就像打工人眼看快下班,手头活没干完,只能匆匆收尾。

解决方案是上下文重置(Context Reset)。完全清空上下文窗口,启动全新agent,通过结构化的"交接文档"传递状态和下一步计划。这给了agent干净的起点,同时保持工作连续性。与简单的"压缩"不同,压缩是把早期对话总结保留在同一会话中,但"上下文焦虑"依然存在。重置是彻底的新开始,代价是需要精心设计交接文档。

第二个问题是自我评估偏差。AI评估自己生成的代码或设计时,倾向于自信称赞,即使质量明显平庸。主观任务上尤其严重,因为没有二元验证标准。你让AI设计网页,它做完了,你问怎么样,它说"非常好,符合现代设计美学"。你一看,紫色渐变配白色卡片,丑绝人寰。

解决方案是分离生成者和评估者。一个agent负责生成,另一个负责评判。分离本身不会立即消除宽容倾向,但一旦外部反馈输入,生成者就有了具体改进目标。

Anthropic目前采用三agent线束架构:Planner、Generator、Evaluator。

Planner把用户的简单想法扩展为完整产品规格文档,但特意专注于产品背景和高层技术设计,而非细节实现。因为如果Planner前期指定错误技术细节,错误会级联到后续实现中。

打开网易新闻 查看精彩图片

Generator采用"一次一个功能"的方式,从规格文档中逐个挑选实现。每个冲刺结束后先自我评估,再交给Evaluator检查。使用React、Vite、FastAPI、SQLite或PostgreSQL技术栈,通过git版本控制。

Evaluator使用Playwright MCP工具,像真实用户一样点击运行中的应用,测试UI功能、API端点和数据库状态。根据产品深度、功能性、视觉设计、代码质量等标准打分,每项有硬性阈值,低于阈值则冲刺失败,Generator收到详细反馈。

每次冲刺前,Generator和Evaluator还会协商"冲刺合约"——写代码前先对齐需求。Generator提议构建什么、如何验证成功,Evaluator审查确保构建正确的东西。双方通过文件沟通,一个写、一个读并回复。

用同一个提示词测试:创建2D复古游戏制作工具,含关卡编辑器、精灵编辑器、实体行为和可玩测试模式。

单agent运行20分钟,成本9美元。界面看起来符合预期,实际使用问题不断:布局浪费空间、工作流程僵硬、游戏本身坏了——实体出现在屏幕上但不响应输入。

线束模式下,Planner将一句话提示扩展为16个功能、10个冲刺的完整规格,远超单agent尝试的范围。除核心编辑器和播放模式,还包括精灵动画系统、行为模板、音效音乐、AI辅助的精灵生成器和关卡设计器,以及带分享链接的游戏导出功能。

线束模式成本是单agent的22倍,但质量差距不是22倍能形容的。单agent产出是"看起来能用、实际不能用"的半成品。完整线束产出是可以直接发布的产品。

这个架构的真正价值不在于能做什么,而在于能持续做什么。单agent可以完成简单任务,但任务复杂到需要数小时甚至数天时,单agent会迷失方向。线束架构通过分工、检查、重置,让AI能像小团队一样工作。

线束架构不是Anthropic的发明,他们的优势在于比别人更早、更系统地遇到这些问题,然后把解决方案标准化、产品化。

虽然Anthropic引领了这波浪潮,但2026年初AI行业最火的产品却是OpenClaw。大街小巷都是"养龙虾"攻略,这已无需多言。

OpenClaw的成功,恰恰证明Anthropic路线正确。真正的护城河不在模型性能,而在用AI完成整个闭环。OpenClaw能访问电脑文件系统、执行终端命令、控制浏览器、接入社交软件,运行在用户自己的电脑上,拥有所有权限。你发一句话,它自己去执行,最后返回结果。

当然它会失败,但绝大多数能成功。用户宁愿冒着巨大安全风险,给AI开放底层电脑权限,让它订票、发邮件、修Bug。不是不在乎安全,而是对"让AI干活"的渴求已强烈到可以暂时压过恐惧。

OpenAI也被这场产品大爆炸震动了。2026年3月16日内部会上,应用业务CEO菲吉·西莫(Fidji Simo)直言:"Anthropic的进展应该成为警钟。"

自此,OpenAI宣布从"do-it-all"策略转向聚焦编程工具和企业客户。计划将ChatGPT、Codex、Atlas浏览器像Claude一样合并为单一应用,在企业市场推出类似插件市场。

但即使理解策略、懂得构建线束架构,OpenAI还需要时间追赶。而在AI行业,时间就是一切。Anthropic每0.7天发布一个新产品,耽误一秒钟都可能掉队。

一位Anthropic工程师在内部文档里写了句话,后来被同事截图发到了Blind:"我们现在的瓶颈不是算力,是产品经理想需求的速度。"