换了最新的基座模型,Agent 的表现却没有质的飞跃;反过来,给同一个模型加上持久化记忆、可复用的技能文档和标准化的工具接口,效果立竿见影——做过 Agent 工程的人,对这种「模型之外的东西比模型本身更重要」的体感多半不会陌生。但这个现象背后有没有一个统一的解释框架?上海交大团队的一篇 54 页综述给出了回答:外部化(Externalization)。
近日,上海交通大学联合中山大学、上海创智学院、卡内基梅隆大学及 OPPO 等机构,于 2026 年 4 月 9 日在 arXiv 提交综述论文,首次以「外部化」为统一视角,系统梳理了 LLM Agent 的记忆、技能、协议与 Harness 工程四大支柱。核心观点:Agent 的实际进展,越来越取决于模型之外的外部认知基础设施,而非模型本身的能力提升。
- 论文标题:Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
- 作者单位:上海交通大学、中山大学、上海创智学院、卡内基梅隆大学、OPPO
- 论文链接:https://arxiv.org/abs/2604.08224(2026 年 4 月 9 日提交)
- 本文第一作者为上海交通大学博士生周宸宇。通讯作者包括 OPPO 研究院王俊博士,以及上海交通大学刘卫文、林江浩、张伟楠教授。
图 1:外部化作为 LLM Agent 设计的组织原则。上方:人类认知外部化历史弧线;中间:LLM Agent 外部化弧线——记忆、技能、协议到 Harness;下方:文献全景图
模型已经很强,但 Agent 还是不够可靠
矛盾出在哪?
过去两年,大模型的参数规模和推理能力持续攀升。但熟悉 Agent 落地的工程师都有一个共同体验:换更强的基座模型,往往不如改进外部基础设施带来的提升显著。持久化记忆、可复用技能、标准化工具接口、沙箱约束、执行日志……这些「不属于模型」的东西,越来越决定着 Agent 能不能真正好用。
论文把这个现象归结为三个结构性错配:
- 连续性错配:上下文窗口有限且短暂,模型无法跨会话稳定保持状态。每次会话都是全新开始,之前积累的上下文需要从头重建。
- 一致性错配:复杂的多步骤流程往往被重新推导,而不是被稳定执行。同样的任务,不同时机调用,执行路径和质量难以保证一致。
- 协调性错配:与工具、服务和其他 Agent 的交互依赖临时约定,脆弱且不可移植。接口一旦变动,整条调用链路可能同步失效。
论文借鉴认知科学家 Don Norman 的「认知工件(Cognitive Artifacts)」理论来解释这一现象。例如,购物清单不是扩展了人的记忆容量,而是把「回忆」问题变成了「识别」问题;地图不是让人导航变强,而是把空间关系从隐性变成可见。外部工件的力量,在于表征变换(Representational Transformation)——它重新组织了问题的形式,让主体用现有能力更可靠地解决它。
同样的逻辑正在 LLM Agent 上发生。论文的核心主张是:外部化才是理解近年 Agent 架构演进的统一逻辑,而不只是各种工程技巧的堆砌。
从 Weights 到 Harness:
能力载体的三次外移
图 2:社区主题在三个能力层上的演化(2022–2026)。关注重心从参数知识和提示工程,逐步外移到 Harness 层级的基础设施。
权重层(2022–2023):能力几乎等同于模型参数,扩展定律主导叙事。奠定了基础,但知识难以选择性更新,行为难以审计,个性化几乎无从实现。
上下文层(2023–2024):Prompt 工程、CoT、RAG 兴起,模型保持冻结,提示模板快速迭代。困难的「回忆」问题被部分转化为「识别」问题,但状态短暂,跨步骤协调始终脆弱。
Harness 层(2024 至今):可靠性依赖外部记忆、工具注册、协议、沙箱与编排。「Agent 工程越来越体现为 Harness 工程」——OpenHands、SWE-agent、Deep Research 等皆遵循这一模式。
殊途同归:
记忆、技能、协议、Harness都是外部化
回顾近年 Agent 领域的技术进展,记忆系统、技能系统、协议标准化,乃至 Harness 工程本身,看似四条独立的研究路线,各自解决不同的问题。但论文指出,它们本质上做的是同一件事——将特定层面的认知负担从模型内部迁移到外部结构中。这不是巧合,而是 Agent 走向可靠部署的必然收敛。四条路线的交汇点,正是外部化。
记忆外部化状态,将「回忆」转化为「检索」,解决连续性错配;技能外部化专业知识,将「即兴生成」转化为「组合复用」,解决一致性错配;协议外部化交互结构,将「临时约定」转化为「结构化契约」,解决协调性错配。而 Harness 外部化的是更根本的东西——Agent 的认知环境本身:原本隐含在每次模型调用过程里的执行流、沙箱、观测、权限,都被显式地抽出来,成为可检视、可配置、可治理的基础设施。
记忆:外部化的状态
图 3:记忆作为外部化状态的全流程——从原始上下文到四层记忆内容,经由记忆系统架构(单体式→分层编排→自适应),最终与 Harness 集成。
论文将 Agent 记忆组织为四个层次:工作上下文(当前任务状态、打开的文件、部分完成的计划)、情景经验(过去的运行记录和失败轨迹)、语义知识(领域事实、用户偏好、通用启发)和个性化记忆(特定用户的习惯与约束)。
记忆架构随需求而演进:从将全部历史塞入提示的单体式,到主动状态加外部存储的检索式,再到按语义或时序分层编排的分层架构,最终走向基于反馈动态调整检索策略的自适应记忆系统。核心效果始终是同一个:模型不再需要从权重中「回忆」,而是从持久化存储中「检索」。
技能:外部化的专业知识
图 4:技能作为外部化专业知识的全流程——从获取(人工编写、蒸馏、发现、组合)到技能工件,经由激活管线(注册、渐进披露、组合),最终绑定到运行时。
技能系统将可复用的程序性专业知识打包为显式工件。一个完整的技能包含三个组成部分:操作程序(任务骨架和分解步骤)、决策启发(分支决策的局部策略)、规范约束(合规、安全和操作边界)。
技能有四条生成路径:人工编写(专家手工编写 SKILL.md 等指令文件)、轨迹蒸馏(从历史运行记录中提取可复用程序)、自主发现(Agent 在环境中探索并归纳,如 Voyager)、组合构建(由已有低层技能组装高阶能力)。技能从「发现」到「执行」经过注册、渐进式披露(按需从摘要扩展到完整细节)、组合等阶段,最终在运行时绑定到具体工具、API 和协议。
核心效果:模型不再需要每次从零「即兴生成」工作流,而是从预验证的组件中「组合」。
协议:外部化的交互结构
图 5:协议在 Harness 工程中的演进——从孤立模型调用到标准化协议再到去中心化 Agentic Web。Harness 通过协议管理三类交互:与工具交互、感知环境、与 Agent 和人类协作。
协议将交互结构固定为机器可读的契约,外部化了四类负担:调用语法(参数格式与类型)、生命周期语义(状态转换与完成条件)、权限与信任边界(授权规则)、以及发现元数据(可用能力的声明)。
论文梳理了三类主要协议族:
- Agent-Tool 协议(如 MCP):通过 JSON-RPC 标准化工具发现与调用,使工具可以动态注册、模块化扩展。
- Agent-Agent 协议(如 A2A):定义任务委托、进度交换和能力发现的结构化语义,支持开放 Agent 生态的互操作。
- Agent-User 协议(如 AG-UI):以类型化执行事件和状态流的形式使运行时可观测、可移植,让用户界面能够实时跟踪 Agent 行为。
核心效果:临时约定变为结构化契约,跨系统协调从脆弱变得可治理。
Harness:统一的认知环境
图 6:外部化 Agent 的整体架构。Harness 居于中心,Memory、Skills、Protocols 三大外部化维度环绕其外,沙箱、可观测性、压缩、评估、审批回路等操作元素在中间层协调运作。
Harness 外部化的是前三者赖以运行的认知环境本身。原本隐含在每次模型调用过程里的执行流、沙箱、观测、权限,被显式地抽出来,成为可检视、可配置、可治理的基础设施——这既是容纳记忆、技能、协议的运行时,也是让整套系统从「黑箱」变成「白箱」的关键。论文从六个设计维度分析其构成:
- Agent 循环与控制流— 感知-检索-规划-执行-观察的完整周期,管控终止条件、递归边界和资源消耗
- 沙箱与执行隔离— 文件系统隔离、网络限制、云端沙箱,既是安全边界,也是认知边界
- 人类监督与审批门控— 执行前审批、执行后审查和升级触发,自主性作为可配置参数
- 可观测性与结构化反馈— 工具调用的结构化日志、连接动作与前因的执行溯源,支持调试、审计和内部反馈回路
- 配置、权限与策略编码— 用户、项目、组织三级分层约束,以声明式规则在运行时强制执行
- 上下文预算管理— 历史摘要、优先级驱动的内容淘汰、技能分阶加载,平衡三大维度对窗口的竞争
三大维度在 Harness 内部形成自我强化的循环:记忆经验蒸馏为技能,技能执行轨迹沉淀回记忆;协议规范了技能的调用方式,也将结构化结果写入持久状态;更丰富的记忆带来更好的技能,更好的技能产生更丰富的执行轨迹,依次循环。
一个场景:不换模型,只改「外部环境」
让一个软件工程 Agent 在大型代码仓库里实现新功能、运行测试、提交 PR——论文用这个例子直接说明了外部化的意义。
- 没有外部化时。模型需要把仓库结构、项目约定、工作流状态和工具交互全部塞进一个脆弱的提示窗口。任何一处出错,整个流程需要重来。随着任务复杂度增加,提示模板的管理成本以超线性速度上升。
- 有了外部化之后。持久化的项目记忆提供跨会话上下文;可复用的技能文档编码项目约定和工作流;协议化的工具接口确保调用格式始终正确;Harness 负责步骤排序、输出验证和失败恢复。
基座模型可以完全不变,改变的是它所面对任务的表示方式。这也是整篇论文的核心论点:Agent 可靠性的提升,越来越不来自更强的推理器,而来自被更好地组织起来的认知系统。衡量一个 Agent 系统的问题,也从「模型有多强?」变成了「哪些负担已经被外部化,让模型不再需要每次从头解决?」
未来方向
论文最后指出了六个前沿方向:
- 外部化边界的扩展— 规划目标、验证逻辑、编排策略本身都在成为 Harness 对象,而非只是被 Harness 执行的内容
- 从数字到具身— 具身 Agent 正在经历相同的外部化模式。高层规划器与低延迟执行模块的分离,正是外部化逻辑在物理系统中的映射
- 自演化 Harness— 通过强化学习、程序合成或模仿学习让基础设施自动更新,前景广阔,但治理风险同步放大
- 安全与治理— 记忆投毒、恶意技能注入、协议欺骗等新型攻击面值得专门关注,强制审查门控与来源溯源是成熟系统的必要保障
- 共享基设与多智能体生态— 当记忆、技能、协议可以跨 Agent 共享,集体学习和劳动分工成为可能,同时带来基础设施漂移等治理难题
- 外部化的评估— 现有 Benchmark 对基础设施贡献的度量严重不足,可迁移性、可维护性、上下文效率等新维度有待建立
从记忆到技能到协议再到 Harness,这篇综述的价值不在于罗列技术细节,而在于提供了一个系统级的解释框架。一句话概括:更好的 Agent 不只是更好的推理器,而是被更好地组织起来的认知系统。
热门跟贴