打开网易新闻 查看精彩图片

2024年,一个普通开发者平均写3.7个Python脚本就会触发"Agent化"——这是Allen Hutchison在Google内部跟踪的样本数据。他本人的记录更极端:全年经手的项目,100%从"简单脚本"滑向"自主Agent"。

这个转化率背后,藏着AI产品设计的核心矛盾:你以为自己在写工具,其实正在造员工

从read_file开始,一切失控了

从read_file开始,一切失控了

Hutchison的定义很刻薄——Agent = 模型在循环里跑,能调用工具。给脚本哪怕一个工具(比如读取文件),对话就变成了委托,脚本就变成了Agent。

他举了自己的例子。本想写个Podcast RAG系统的分类器:用户提问→AI判断意图→路由到对应搜索函数。经典架构,干净优雅。

上线第一周,裂缝出现。用户既想搜节目描述,又想搜单集内容——分类器的if/else逻辑被迫二选一。意图模糊时,开发者预设的分支规则直接报错。

「如果你在用if/else逻辑决定AI该做什么,你可能在造一个想当Agent的分类器。」Hutchison的原话。

修复方案堪称羞辱:删掉分类器,给Agent两个工具(search_descriptions和search_episodes)。Agent自己判断,可以串行,可以并行。代码量-40%,能力+200%。

打开网易新闻 查看精彩图片

代码变简单了,但麻烦换了个地方

这是Hutchison的真正洞察。当条件分支被模型判断取代,语法层面的复杂度确实消失了——但信任和判断委托的复杂度指数级上升。

给Agent shell权限时,你担心的不是拼写错误,是rm -rf(强制删除根目录)。Human-in-the-Loop(人类逐步骤审批)正在让位给Human-on-the-Loop(人类设定目标与边界,系统自主执行)。

角色从操作员变成监督员。这个转换有个硬前提:边界必须清晰定义。没有护栏的自主不是自主,是失职。

Hutchison在Agentic Shift系列里花了大量篇幅讲这个:策略引擎、可观测性、Agent治理的具体设计。不是技术文档,是组织变革手册。

当代码不再崩溃,判断开始崩溃时,Debug的对象从语法变成了价值观。

几千个Agent同时运行时,一致性从哪来

几千个Agent同时运行时,一致性从哪来

如果所有AI项目都收敛为Agent,下一个问题自然浮现:当数千个Agent基于各自判断行动,如何保证它们不互相拆台?

打开网易新闻 查看精彩图片

Hutchison的策略引擎解决"能做什么"。但"该怎么做"——语气、判断标准、优先级、与用户的互动方式——很难用策略文件穷举。这不是能力问题,是身份问题。

行业已经在用"人格文件"应对。OpenClaw的SOUL.md、Claude Code的CLAUDE.md、Cursor的.cursorrules——这些文件不是配置,是Agent的"员工手册"。

一个细节:Cursor的.cursorrules允许开发者定义代码审查风格("像挑剔的资深工程师"还是"像耐心的导师")。Claude Code的CLAUDE.md可以指定沟通边界("主动确认模糊需求"或"默认执行最可能意图")。

这些文件正在从"可选配置"变成"基础设施"。Hutchison预测,2025年下半年,主流Agent框架会强制要求人格文件作为部署前提——就像现在强制要求API密钥一样。

产品经理的新KPI:造一个你不怕放权的Agent

产品经理的新KPI:造一个你不怕放权的Agent

Hutchison的经历对科技从业者有个直接启示:评估Agent项目时,别问"它能做什么",问"你敢让它独自做什么"。

他内部跟踪的Google项目显示,从"人类审批每个动作"到"人类只设定边界"的迁移周期,平均需要6-8周。瓶颈从来不是技术,是组织信任的建立速度。

一个反直觉的数据:给Agent更多工具(而非更严格的审批流程)反而缩短了信任建立周期。因为工具暴露约束,约束产生可预测性,可预测性积累信任。

Hutchison的Podcast RAG系统在删除分类器后,用户满意度从3.2/5跳到4.6/5。不是因为它更"智能",是因为它更透明——用户能看到Agent调用了哪些工具,而不是被黑箱分类器神秘路由

当你的下一个脚本开始长出while循环和tools数组时,你会提前写好它的SOUL.md,还是等到它"意外"删除了生产环境数据后再补?