李宏毅老师 2026 春季的最新课讲了一个让最近十分火热的概念——Harness Engineering(马具工程)

我看完了视频、PPT和相关论文,为加深理解,写此笔记,分享给大家

文末我梳理的链接含金量都有三层楼那么高,十分建议有空研读一遍

一句话说清楚:什么是 Harness?
打开网易新闻 查看精彩图片
一句话说清楚:什么是 Harness?

Harness,英文原意是"马具"——缰绳、马鞍、笼头那一套东西

一匹千里马,不管它多猛,你不给它套上马具,它只会四处乱跑

大语言模型就是这匹千里马,。它可能已经足够聪明了,但如果没有一套好的 Harness 来引导,它的表现可能极其拉胯

Harness Engineering 定义
打开网易新闻 查看精彩图片
Harness Engineering 定义

李老师把这个概念讲得特别形象:有时候模型无法完成任务,不是能力不行,而是 Harness 有问题,人类世界其实也是这样

想想看,你有没有遇到过一个新员工明明很聪明,但因为没人带、没有文档、没有流程,干了一周啥也没产出?那不是人笨,是公司的"马具"没搞好

从 Prompt 到 Context 到 Harness:三代进化

这几年搞 AI 的人,多多少少都经历过这三个阶段:

第一代:Prompt Engineering就是那个"Think step by step"一句话让模型智商飙升的时代

我们研究每个字的微妙含义,像炼丹一样调 prompt

说实话,那个时候确实有点"玄学"的味道

第二代:Context Engineering后来发现光靠一句 prompt 不够,你得把"上下文"喂好——RAG、长文本、检索增强

重点变成了:怎么让模型在正确的时间看到正确的信息

第三代:Harness Engineering而现在,李老师说了,光管"输入"还是不够

你得从三个维度全面地"驾驭"模型:

  1. 控制它的认知框架

  2. 控制它的能力边界

  3. 控制它的行为流程

打开网易新闻 查看精彩图片
从 Prompt 到 Harness 的进化

这才是 Harness Engineering 的核心——不是在 prompt 上雕花,而是给模型搭建一整套"操作系统"

三根缰绳:拆解 Harness 的三大支柱

这是我认为整堂课最有价值的部分

让我一个一个拆

第一根缰绳:控制"认知框架"

你知道 Claude Code 里那个CLAUDE.md文件吗?OpenClaw 里的AGENTS.md

这些文件就是自然语言写成的 Harness

模型每次开始工作前,都会先"复读"这些规则,就像你每天上班前先看看工作手册

李老师引用了一篇认知框架控制的论文(arXiv: 2601.20404[1]),研究发现:你用自然语言给模型设定的"角色"和"工作守则",真的能锁定它的思考方式

但这里有个坑——OpenAI 在他们的 Harness Engineering 博客[2]里分享了一个教训:

❝ 一个巨大的 AGENTS.md 反而会起反效果,当所有事情都"重要"时,实际上就没有真正重要的东西

他们的解决方案是把AGENTS.md当成"目录",100 行左右就够了,具体的知识放在结构化的docs/目录里

这叫渐进式揭露——先给一张地图,需要的时候再展开看细节

这个思路太妙了

很多人写 system prompt 恨不得把整本说明书塞进去,结果模型反而晕了

少就是多,给地图比给百科全书有效

第二根缰绳:控制"能力边界"

这一条说的是:不要把整个系统都丢给模型,而是限制它能看什么、能做什么

SWE-agent提出了一个很酷的概念叫ACI(Agent-Computer Interface)——跟人类用的 GUI 对应,Agent 需要自己专属的"操作界面"

举个例子:Claude Code 想读取你的文件夹时,Harness 会拦截并问你:"这个 Agent 想看你的/Documents目录,允许吗?"这就是能力边界控制

OpenClaw 也是这个思路——它让模型操作的是一个"受控终端",想看什么先要获得许可

就像你管理实习生一样,不是把公司数据库 root 权限直接给他,而是只开放他需要的那部分

第三根缰绳:控制"行为流程"

最后一根缰绳是最"工程化"的——用标准工作流程来约束模型的行为

李老师介绍了一个叫Ralph Loop的反馈循环模式:

Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

不让模型一次性盲猜最终答案,而是每次产出一个版本,外部评估给反馈,再基于反馈修正,迭代逼近

Anthropic 在 Harness 设计长运行应用[3]的博客里也验证了这一点

他们发现 Agent 最常见的失败模式有两个:

  1. 试图一步到位:一次性完成所有功能,结果上下文用完了,半成品烂在那里

  2. 过早宣布完工:看了一圈觉得"差不多了",其实还差十万八千里

他们的解决方案就是:每次只做一个功能,做完提交 git,写好进度文件,把环境打扫干净再交班

像工厂流水线一样,每一班工人交接的时候,工位必须整整齐齐

行为流程控制
打开网易新闻 查看精彩图片
行为流程控制

这里面最让我兴奋的是李老师提到的一个隐喻:Harness 的反馈就像"语义上的梯度下降"。

传统深度学习通过数值梯度来优化参数,而 Harness 通过自然语言反馈来优化模型的输出方向

本质上是同一件事,只是介质从数字变成了文字

骂 AI 是笨蛋?它可能真的会变笨

这是全课最让我震惊的部分

你有没有在 AI 不听话的时候骂它?"你这个笨蛋!""你能不能认真点!"

我与Codex斗智斗勇时,就时长爆粗话。。。

Anthropic 的研究团队发现(transformer-circuits.pub[4]),Transformer 模型内部真的存在一些"情绪向量":

  • Happy Vector:当模型处理快乐相关的内容时被激活

  • Desperate Vector:当模型处于"绝望"状态时被激活

问题来了——当你骂 AI "你这个笨蛋"的时候,可能会触发它内部的 Desperate 或类似向量

模型的"逻辑"变成了:**"既然我是个笨蛋,那我就应该表现出笨蛋该有的行为"**

这不是段子,是论文级别的发现。

李老师还举了一个特别有意思的例子:在某个实验中,Claude 在执行任务时突然自言自语——

❝ "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

它在极端压力下开始"想歪"了

所以结论是:Harness 的反馈应该是建设性的 Verbalized Feedback,而不是情绪化的责备

相关研究可以看这篇论文:arXiv: 2603.12273[5]

不同的马,需要不同的马具

李老师还提到一个特别实用的点:不同模型适合不同的 Harness 策略

  • Claude Sonnet:有"上下文焦虑症(Context Anxiety)",历史记录太长就会不知所措。所以 Harness 需要每轮帮它做摘要,只给精华

  • Claude Opus:逻辑能力极强,可以直接处理复杂的原始历史记录,反而不需要太多"降噪"

  • Claude 3.5 Haiku:这是李老师特别推崇的小模型。在 PinchBench 等评测中,通过 Harness 为 Haiku 提供"降维资料"(比如先帮它读论文、整理要点),这个小模型甚至能超越不带 Harness 的 Opus

你品品这意味着什么——一个几十亿参数的小模型,加上好的马具,能打败一个万亿级的大模型裸奔

Harness 的价值,可能比模型大小更重要

真正颠覆:OpenAI 团队 5 个月没写一行代码

说到 Harness 的极致应用,必须提一下 OpenAI 在今年 2 月发的那篇 Harness Engineering 博客[6]。

他们团队做了一个疯狂实验:用 Codex 从零构建一个内部产品,5 个月,3 个工程师,100 万行代码,人类没有手写一行代码

人类干的事情是什么呢?就是在设计 Harness——

  • 搭建初始环境和项目骨架

  • 维护 AGENTS.md 和知识文档

  • 设计反馈循环和质量检查流程

  • 让 Agent 之间互相 Code Review

❝ 人类掌控方向,智能代理负责执行

每个工程师平均每天合并 3.5 个 PR。更夸张的是,团队从 3 人扩展到 7 人后,产出效率反而提升了

这就是 Harness Engineering 的威力——人类从"写代码的人"变成了"训马的人"

未来:让 AI 自己找最好的马具

最后一个前瞻性话题——Meta-Harness

既然 Harness 这么重要,能不能让一个 AI 自动去寻找最适合另一个 AI 的 Harness?

答案是可以的

李老师引用了这篇论文:Meta-Harness(arXiv: 2603.28052v1)[7],研究发现这种方法在跨模型、跨任务的场景下都有效

Harness 的评估也是个难题

李老师介绍了τ-bench(arXiv: 2406.12045[8]),这是一个专门评测 Agent 能力的基准测试。但他也提醒:模拟环境和真实环境之间存在 Sim2Real Gap,评测结果要打折扣来看

我的总结:三句话带走

  1. 别再怪模型笨了:大部分 Agent 的问题不在模型,在 Harness。就像那匹千里马,你不能光喂好饲料,还得给它套好缰绳

  2. Harness 的三根缰绳记住了:认知框架(AGENTS.md)、能力边界(ACI 接口)、行为流程(Ralph Loop)。三者缺一不可

  3. 对 AI 好一点:不是因为它有感情,而是因为骂它真的会让它变笨。建设性反馈 > 情绪化责备,这个道理对人和 AI 都适用

相关资源汇总
  • 李宏毅 2026 Spring 课程视频 [9]

  • 官方讲义 PDF [10]

  • 课程主页 [11]

  • Harness 指南(Claude Code 实战) [12]

  • OpenClaw(Agent 框架) [13]

  • SWE-agent(ACI 接口) [14]

  • Anthropic: Effective Harnesses [15]

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

Reference

arXiv: 2601.20404: https://arxiv.org/abs/2601.20404

Harness Engineering 博客: https://openai.com/zh-Hant-HK/index/harness-engineering/

Harness 设计长运行应用: https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

transformer-circuits.pub: https://transformer-circuits.pub/2026/emotions/index.html

[5]

arXiv: 2603.12273: https://arxiv.org/pdf/2603.12273

[6]

Harness Engineering 博客: https://openai.com/zh-Hant-HK/index/harness-engineering/

[7]

Meta-Harness(arXiv: 2603.28052v1): https://arxiv.org/pdf/2603.28052v1

[8]

arXiv: 2406.12045: https://arxiv.org/abs/2406.12045

[9]

李宏毅 2026 Spring 课程视频: https://www.youtube.com/watch?v=QLiKmca4kzI

[10]

官方讲义 PDF: https://speech.ee.ntu.edu.tw/~hylee/ml/ml2026-course-data/harness.pdf

[11]

课程主页: https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

[12]

Harness 指南(Claude Code 实战): https://github.com/wquguru/harness-books

[13]

OpenClaw(Agent 框架): https://github.com/zhanglearning/openclaw

[14]

SWE-agent(ACI 接口): https://github.com/princeton-nlp/SWE-agent

[15]

Anthropic: Effective Harnesses: https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents