Google工程总监写了本453页的书，重新定义什么是真正的AI Agent|Google|agent|context|prompt|一代版本模型|上下文|代码|工程总监|知名企业|谷歌

Antonio Gullí 是 Google 的工程总监，他写了一本 453 页的书，把 AI Agent 开发拆成了 21 种设计模式。作者 Yanhua 读这本书的动机很具体——他写过 Harness Engineering，写过 Clawdbot 的踩坑经验，每次写完之后都有一个没想透的问题：这些东西背后有没有一套可以复用的底层逻辑？

书里最狠的一个判断是：大多数人在用的"AI"，只是 Level 0——裸 LLM，没有工具、没有记忆、不会行动。你问它 2025 年奥斯卡最佳影片是哪部，它猜。书里说得很直白：Level 0 的东西，不是 Agent。

Agent 的四个等级

Level 1 是工具使用者，Agent 开始用搜索、API、数据库，但更重要的是自己判断什么时候该调、调什么、结果怎么用。关键一步在于"自己意识到"——不是人类告诉它"你去搜一下"，是它自己判断需要搜。

Level 2 是战略思考者，多了规划和 Context Engineering。书里对 Context Engineering 的定义让人眼前一亮：不做信息堆砌，做的是精心筛选、裁剪、打包上下文。一句精髓："要让 AI 达到最高准确率，必须给它短小、聚焦、有力的上下文。"

Level 3 是多 Agent 协作。书的立场明确：别老想着造一个全能 super agent，真正靠谱的做法是像搭团队一样——项目经理 Agent + 研究员 Agent + 设计师 Agent + 文案 Agent。

Context Engineering：书里最被低估的概念

传统的 Prompt Engineering 只管"你怎么问"。书里的 Context Engineering 管的是"问之前，Agent 的眼前摆着什么"。它包括四层信息：system prompt 定义 Agent 的身份和边界；外部数据如 RAG 检索和 API 返回值；隐式数据如用户身份和交互历史；反馈回路如自动评估和策略调整。

这就是 Harness Engineering 在 prompt 层面的映射——赛道设计比引擎马力更重要。

Reflection：两个 Agent 真的比一个好

Reflection 的核心很简单：Agent 干完活后自己审一遍，发现问题自己改。但书里明确说了：Producer 和 Critic 必须用两个不同的 Agent，给不同的 system prompt。同一个 persona 审自己的东西一定有盲区。

具体流程就是：Producer 写代码 → Critic 逐行审查 → Producer 根据意见改 → Critic 再审 → 直到 Critic 满意或达到最大迭代次数。用途远不止写代码，写文章、做计划、总结文档全都能套。

Memory 三层模型

Session 是当前对话的临时记忆，State 是任务进行中的状态数据，Memory 是跨会话的持久记忆。书里强调："Memory 不只是存下来，还要设计存什么、什么时候存、怎么检索的一整套策略。存太多了噪声大，存少了不够用。"

五个假设，第五个最离谱

前四个在合理推演范围：通用型 Agent、深度个性化、具身智能、Agent 成为独立经济实体。第五个是变形 Multi-Agent——你只声明目标如"做一个卖精品咖啡的电商生意"，系统自动创建市场研究和品牌 Agent，跑完一轮后自己判断品牌 Agent 不需要了，拆成 Logo 设计、建站、供应链 Agent。整个过程持续自动调优 prompt，不断重组团队架构。