打开网易新闻 查看精彩图片

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言

从Prompt Engineering到Harness Engineering,AI行业正在完成一次关键的成年礼。

通过Harness,AI从一个需要人类时刻看管的工具,变成了一个可以自主完成复杂任务、自我管控、自我优化的数字主体。

作者| 方文三

图片来源 |网 络

打开网易新闻 查看精彩图片

一个词撬动一条赛道

2026年3月,AI行业里最热的词不是任何一个模型的名字,而是一个听起来跟AI毫无关系的英文单词:Harness。

它的本义是[马具],缰绳、笼头、鞍具,那一整套套在马身上的东西。

这个词正在成为AI Agent时代最核心的产业概念,围绕它正在生长出一个万亿美金规模的基础设施层。

打开网易新闻 查看精彩图片

很多人将Harness理解为新的大模型或算法框架,但事实恰恰相反,Harness不触碰大模型本身的参数与训练逻辑。

它是一套环绕在大模型周围的完整控制与编排系统,是为AI智能体搭建的工程化[脚手架]与[安全带]。

用更直白的话来说,Harness就是Agent的运行容器+安全边界+调度控制器。

是包裹在Agent之外,让它从一匹横冲直撞的野马,变成一匹能稳定输出的赛马的全套马具。

打开网易新闻 查看精彩图片

大模型就像是一个天赋极高但缺乏规则意识的天才实习生,他拥有极强的执行能力,但很容易在复杂任务中偏离方向、擅自决策,甚至出现自己都无法察觉的错误。

而Harness就为这个实习生搭建的完整管理体系:明确的岗位职责、标准化的工作流程、独立的验收机制、持续的优化闭环。

让天才的能力被完整释放,同时始终在可控的边界内运行。

它是一整套围绕Agent运行的工程系统,包含三层结构。

①Agent Harness(执行层):模型+工具调用+任务拆解,负责[做事]。

②Evaluation Harness(评估层):自动测试、评分、结果比对,核心是[判断做得对不对]。

③Control Harness(控制层):权限控制、环境隔离、行为约束,决定[能不能做、做到什么程度]。

打开网易新闻 查看精彩图片

Anthropic官方给出了行业内最具代表性的定义:Harness是支撑复杂AI智能体运行的外部框架、控制结构与编排系统。

用于解决AI在完成复杂、长周期任务时的[失控]问题,通过外部控制机制弥补模型内在的能力缺陷。

Anthropic的Harness实践核心是经典的三智能体分离架构,将完整的复杂任务拆解给三个承担不同职责的独立AI智能体。

①规划者(Planner)负责将用户的简单需求,扩展为完整的产品规格与执行计划,聚焦高层设计与任务边界。

②生成者(Generator)负责按照拆分后的冲刺节点,逐个实现功能模块,完成具体的执行工作。

③评估者(Evaluator)则承担独立的验收职责,像真实用户一样操作生成的内容,对照提前约定的标准进行逐项测试与打分,不达标的内容直接退回返工。

这套架构最核心的创新,打破了[单一AI既当运动员又当裁判员]的死局。

将生成与评估的职责拆分给两个独立智能体之后,任务验收的准确率直接提升到了94%,最终交付的成果质量出现了量级式的跨越。

OpenAI的Harness实践,则走了另一条以[可理解性]为核心的工程化路线。

其内部团队在5个月内,通过Harness架构实现了[零人工手动代码]的突破。

让AI智能体自主完成了一个超过百万行代码的内部产品开发,平均每天完成3.5个生产级PR,全程仅由人类工程师进行方向把控。

Anthropic的三智能体对抗架构和OpenAI的全流程工程化体系,它们的核心逻辑都高度一致。

不纠结于大模型本身的能力提升,而是通过外部的工程化框架,让AI形成[规划-执行-评估-反馈-优化]的完整闭环,用AI来管控、约束、优化AI。

打开网易新闻 查看精彩图片

让两大死对头形成默契的原因

AI对齐与安全是OpenAI与Anthropic从成立之初的核心命题,也是两家公司所有技术路线的底层出发点。

但随着模型能力的持续迭代,它们各自坚持的传统解决方案,都已经走到了瓶颈期。

OpenAI的核心对齐方案是行业通用的RLHF(人类反馈强化学习),通过人类标注员对AI的输出进行打分排序,训练奖励模型,让AI学会生成符合人类价值观的内容。

但这套方案在模型能力持续提升的过程中,已经出现了无法解决的根本性缺陷。

最核心的问题在于人类标注员的能力上限,已经跟不上AI模型的能力进化速度。

就像一个小学生,根本没有能力去评判一个博士生的毕业论文质量。

这种[能力倒挂],让RLHF的效果出现了明显的边际递减,甚至可能让AI学到错误的对齐逻辑。

为了保证无害性,彻底牺牲了实用价值,这对于主打企业级服务的OpenAI来说,是无法接受的商业短板。

打开网易新闻 查看精彩图片

而Anthropic核心的宪法式AI(Constitutional AI)技术,用[AI反馈强化学习]替代了部分人类反馈,给AI一套明确的[宪法]原则,让AI自己依据这套原则,进行自我批评、自我修正。

这套方案让Anthropic在模型安全与对齐上,形成了自己的核心优势,但同样没能突破根本的瓶颈。

宪法式AI的核心局限在于它依然是[单一模型的自我监督],无法摆脱自我评价的天然偏差。

就像一个人很难客观地看到自己的缺点,AI也同样很难发现自己输出内容中的隐藏风险与逻辑漏洞。

同时,随着模型承担的任务越来越复杂,单一模型的自我管控很容易在多轮执行中出现偏差累积,最终彻底偏离任务目标,也就是行业内常说的[脱轨]。

OpenAI与Anthropic的企业客户调研数据,都指向了同一个痛点:超过70%的企业客户,在部署AI智能体时,最担心的问题不是AI不够聪明,而是AI会在执行过程中做出无法预判的操作。

比如删除重要文件、执行恶意代码、泄露敏感数据,或是在无人干预的情况下,擅自做出超出权限的决策。

而Harness架构恰恰给这些所有的痛点,提供了一套完整的解决方案。

它跳出了[人类管AI]的传统思路,转向了[AI管AI]的全新范式。

在Harness的架构中,人类不再需要事无巨细地监督AI的每一步操作。

只需要设定好规则、边界与目标,剩下的监督、校验、修正、优化工作,都由不同职责的AI智能体相互配合完成。

AI的治理能力,终于可以和模型的执行能力同步进化,不再受限于人类的能力上限。

同时,Harness通过严格的架构约束、权限管控、沙箱运行机制,给AI的所有操作都加上了[安全带],解决了企业客户最担心的不可预测性问题。

AI的所有操作都在Harness设定的边界内运行,所有行为都有迹可循、可审计、可回溯,一旦出现违规操作,会立刻被评估智能体拦截并修正。

两家在模型能力的竞赛中打得不可开交,但在AI管控与治理这个核心命题上,遇到了同样的瓶颈,也找到了同样的解决方案。

两家头部企业的集体站台,让行业终于看清了Harness的核心价值。

打开网易新闻 查看精彩图片

集体拥抱Harness背后的产业逻辑

过去三年,从参数规模的比拼,到推理能力的迭代,从多模态能力的升级,到上下文窗口的拉长,所有人都在追求[更聪明的大模型]。

但到了2026年,行业的共识已经发生了根本性的变化:主流大模型的复杂推理能力差距正在逐步缩小,国内开源模型和海外闭源模型的能力鸿沟,也在快速填平。

腾讯集团高级执行副总裁汤道生,在今年腾讯云峰会上明确提出了这个判断:[AI落地不只是一道算法题,更是一道工程题。在同样的模型能力下,不同的Harness设计,都将影响AI落地的实际效果。]

这句话道破了当下AI行业的核心命题,当模型能力不再是稀缺资源,工程化能力,就成了企业AI落地的核心竞争力。

而Harness正是这套工程化能力的核心载体,其价值已经得到了实打实的工程验证。

LangChain的Deep Agents团队,在固定使用GPT-5.2-Codex模型的前提下,通过优化Harness设计,就把coding agent在Terminal Bench 2.0上的得分,从52.8%提升到了66.5%,排名从行业Top30附近,直接跃升至Top5。

这意味着,Harness Engineering把过去[调试模型]的工作,转化成了[调整系统]的工作。

不需要改动模型的架构和参数,就能持续放大模型已有的能力,这对于绝大多数企业来说,无疑是一条性价比更高、落地性更强的AI落地路径。

这也是为什么,国内的头部厂商,都已经把Harness Engineering,当成了自己AI战略的核心抓手。

火山引擎总裁谭待则表示,字节推出的[字节版龙虾]Arkclaw,已经全面应用了Harness架构,核心思路就是把最好的框架进行服务化和产品化,让框架和模型协同进化。

打开网易新闻 查看精彩图片

结尾:

很多人把Harness窄化为一种AI工程落地的技巧,但它真正代表的,是AI世界正在建立一套全新的秩序。

AI从单点能力进化为完整的工程系统,真正实现了全生命周期的可管理、可治理。

它不是单模型无限迭代的、更强的算力时代,而是多智能体协同可控的、更稳定的系统时代。

部分资料参考:APPSO:《Token 刚定了中文名,AI 圈又多了个翻译不了的词》,字母榜:《一曲新词酒一杯,喝到Harness我就醉》,机器之心:《Context还不够,Harness才是Agent工程优化的正解?》,腾讯研究院:《腾讯汤道生:AI落地不只是算法题,Harness工程能力是关键变量》

本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。

请务必注明:

「姓名 + 公司 + 合作需求」