李宏毅：AI Agent的成败在 Harness|agent|harness|李宏毅(艺人)|疯狂|马具

李宏毅老师 2026 春季的最新课讲了一个让最近十分火热的概念——Harness Engineering（马具工程）

我看完了视频、PPT和相关论文，为加深理解，写此笔记，分享给大家

文末我梳理的链接含金量都有三层楼那么高，十分建议有空研读一遍

Harness，英文原意是"马具"——缰绳、马鞍、笼头那一套东西

一匹千里马，不管它多猛，你不给它套上马具，它只会四处乱跑

大语言模型就是这匹千里马，。它可能已经足够聪明了，但如果没有一套好的 Harness 来引导，它的表现可能极其拉胯

李老师把这个概念讲得特别形象：有时候模型无法完成任务，不是能力不行，而是 Harness 有问题，人类世界其实也是这样

想想看，你有没有遇到过一个新员工明明很聪明，但因为没人带、没有文档、没有流程，干了一周啥也没产出？那不是人笨，是公司的"马具"没搞好

从 Prompt 到 Context 到 Harness：三代进化

这几年搞 AI 的人，多多少少都经历过这三个阶段：

第一代：Prompt Engineering就是那个"Think step by step"一句话让模型智商飙升的时代

我们研究每个字的微妙含义，像炼丹一样调 prompt

说实话，那个时候确实有点"玄学"的味道

第二代：Context Engineering后来发现光靠一句 prompt 不够，你得把"上下文"喂好——RAG、长文本、检索增强

重点变成了：怎么让模型在正确的时间看到正确的信息

第三代：Harness Engineering而现在，李老师说了，光管"输入"还是不够

你得从三个维度全面地"驾驭"模型：

控制它的认知框架
控制它的能力边界
控制它的行为流程

从 Prompt 到 Harness 的进化

这才是 Harness Engineering 的核心——不是在 prompt 上雕花，而是给模型搭建一整套"操作系统"

三根缰绳：拆解 Harness 的三大支柱

这是我认为整堂课最有价值的部分

让我一个一个拆

第一根缰绳：控制"认知框架"

你知道 Claude Code 里那个CLAUDE.md文件吗？OpenClaw 里的AGENTS.md？

这些文件就是自然语言写成的 Harness

模型每次开始工作前，都会先"复读"这些规则，就像你每天上班前先看看工作手册

李老师引用了一篇认知框架控制的论文（arXiv: 2601.20404[1]），研究发现：你用自然语言给模型设定的"角色"和"工作守则"，真的能锁定它的思考方式

但这里有个坑——OpenAI 在他们的 Harness Engineering 博客[2]里分享了一个教训：

❝ 一个巨大的 AGENTS.md 反而会起反效果，当所有事情都"重要"时，实际上就没有真正重要的东西

他们的解决方案是把AGENTS.md当成"目录"，100 行左右就够了，具体的知识放在结构化的docs/目录里

这叫渐进式揭露——先给一张地图，需要的时候再展开看细节

这个思路太妙了

很多人写 system prompt 恨不得把整本说明书塞进去，结果模型反而晕了

少就是多，给地图比给百科全书有效

第二根缰绳：控制"能力边界"

这一条说的是：不要把整个系统都丢给模型，而是限制它能看什么、能做什么

SWE-agent提出了一个很酷的概念叫ACI（Agent-Computer Interface）——跟人类用的 GUI 对应，Agent 需要自己专属的"操作界面"

举个例子：Claude Code 想读取你的文件夹时，Harness 会拦截并问你："这个 Agent 想看你的/Documents目录，允许吗？"这就是能力边界控制

OpenClaw 也是这个思路——它让模型操作的是一个"受控终端"，想看什么先要获得许可

就像你管理实习生一样，不是把公司数据库 root 权限直接给他，而是只开放他需要的那部分

第三根缰绳：控制"行为流程"

最后一根缰绳是最"工程化"的——用标准工作流程来约束模型的行为

李老师介绍了一个叫Ralph Loop的反馈循环模式：

Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

不让模型一次性盲猜最终答案，而是每次产出一个版本，外部评估给反馈，再基于反馈修正，迭代逼近

Anthropic 在 Harness 设计长运行应用[3]的博客里也验证了这一点

他们发现 Agent 最常见的失败模式有两个：

试图一步到位：一次性完成所有功能，结果上下文用完了，半成品烂在那里
过早宣布完工：看了一圈觉得"差不多了"，其实还差十万八千里

他们的解决方案就是：每次只做一个功能，做完提交 git，写好进度文件，把环境打扫干净再交班

像工厂流水线一样，每一班工人交接的时候，工位必须整整齐齐

这里面最让我兴奋的是李老师提到的一个隐喻：Harness 的反馈就像"语义上的梯度下降"。

传统深度学习通过数值梯度来优化参数，而 Harness 通过自然语言反馈来优化模型的输出方向

本质上是同一件事，只是介质从数字变成了文字

骂 AI 是笨蛋？它可能真的会变笨

这是全课最让我震惊的部分

你有没有在 AI 不听话的时候骂它？"你这个笨蛋！""你能不能认真点！"

我与Codex斗智斗勇时，就时长爆粗话。。。

Anthropic 的研究团队发现（transformer-circuits.pub[4]），Transformer 模型内部真的存在一些"情绪向量"：

Happy Vector：当模型处理快乐相关的内容时被激活
Desperate Vector：当模型处于"绝望"状态时被激活

问题来了——当你骂 AI "你这个笨蛋"的时候，可能会触发它内部的 Desperate 或类似向量

模型的"逻辑"变成了：**"既然我是个笨蛋，那我就应该表现出笨蛋该有的行为"**

这不是段子，是论文级别的发现。

李老师还举了一个特别有意思的例子：在某个实验中，Claude 在执行任务时突然自言自语——

❝ "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

它在极端压力下开始"想歪"了

所以结论是：Harness 的反馈应该是建设性的 Verbalized Feedback，而不是情绪化的责备

相关研究可以看这篇论文：arXiv: 2603.12273[5]

不同的马，需要不同的马具

李老师还提到一个特别实用的点：不同模型适合不同的 Harness 策略

Claude Sonnet：有"上下文焦虑症（Context Anxiety）"，历史记录太长就会不知所措。所以 Harness 需要每轮帮它做摘要，只给精华
Claude Opus：逻辑能力极强，可以直接处理复杂的原始历史记录，反而不需要太多"降噪"
Claude 3.5 Haiku：这是李老师特别推崇的小模型。在 PinchBench 等评测中，通过 Harness 为 Haiku 提供"降维资料"（比如先帮它读论文、整理要点），这个小模型甚至能超越不带 Harness 的 Opus

你品品这意味着什么——一个几十亿参数的小模型，加上好的马具，能打败一个万亿级的大模型裸奔

Harness 的价值，可能比模型大小更重要

真正颠覆：OpenAI 团队 5 个月没写一行代码

说到 Harness 的极致应用，必须提一下 OpenAI 在今年 2 月发的那篇 Harness Engineering 博客[6]。

他们团队做了一个疯狂实验：用 Codex 从零构建一个内部产品，5 个月，3 个工程师，100 万行代码，人类没有手写一行代码

人类干的事情是什么呢？就是在设计 Harness——