打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

「AI进化论」是长江商学院推出的AI+主题栏目,汇聚全球AI领域的原创洞见、产业实践及前瞻研判。从技术突破到产业应用,从战略布局到伦理边界,在这里,一起与AI同频进化。

花半年接入大模型,3个月后几乎无人使用——不是模型不够聪明,是它只会问答、不会干活。这正是很多企业AI转型的尴尬现实:大家忙着“接模型、做聊天框、喂文档”,却没人回答一个根本问题——怎么让AI稳定地把事做成?

长江商学院张维宁教授在最新发布于《哈佛商业评论》APP的署名文章中指出,真正的企业 AI 转型,不是把大模型接入企业数据,而是把企业家的私有数据、专家判断、行业资源与工作流程,转化为一套可被智能体理解、执行、校正与持续优化的运行系统。

在这套系统里,数据只是原料,知识架构让原料可继承,智能体让知识开始行动,而Harness作为智能体的“管控操作系统”让行动可以被管理、被证明、被复制、被放大。

作者 | 张维宁

来源 | 《哈佛商业评论》APP

原标题 | 企业AI转型:从数据资产到智能体操作系统

打开网易新闻 查看精彩图片

张维宁

长江商学院教授

高层管理教育项目学术主任

MBA项目学术主任

一家拥有二十年行业经验的制造企业,花了六个月时间部署了大语言模型,接入了内部文档,搭建了智能问答系统。上线那天,演示效果令人惊叹——模型对产品参数对答如流。

然而三个月后,这套系统几乎无人使用。原因并非模型不够聪明,而是它只会回答问题,不会完成工作。它无法跨系统调取数据、无法按企业标准判断异常、更无法在出错时自动修正。

这家企业的困境,折射出当下绝大多数企业AI转型的核心瓶颈:缺的不是模型能力,而是一套让模型持续、稳定、可控地交付业务结果的系统。

01

重新定义问题:

企业真正稀缺的不是模型,而是可持续交付结果的能力

过去两年,很多企业把AI项目理解为“接一个模型、做一个聊天框、接一批文档”。这样的项目当然有价值,但它们解决的多半是问答效率,而不是经营系统本身。真正困难的部分不在于模型能不能回答,而在于它能不能在一个开放环境里连续做事——跨多个工具调用、跨多个系统、跨多个上下文窗口、跨多个角色交接,并且在很长时间内持续沿着目标前进。

这也是为什么静态排行榜越来越不够解释企业价值。一次性答对一道题,和在一小时甚至一天内稳定完成一条业务链路,是两种完全不同的能力。

对企业来说,客户不会因为模型“偶尔很聪明”而付费;客户只会因为系统“持续把事做成”而付费。换句话说,企业真正购买的不是智力峰值,而是结果的耐久性。Harness(因目前尚无统一中文译名,下文沿用英文)的出现,让把模型偶发的聪明塑造成企业可用、可控、可持续的稳定产能,成为现实。

换句话说,Harness把模型的能力从可展示变成可交付,没有Harness,智能体更像一个高潜力但不稳定的实习生;有了Harness,智能体才开始像一个被纳入规则、节奏、责任与反馈系统中的正式组织成员。

因此,企业家要把问题重新问一遍:我们到底在争夺什么?不是争夺谁先接上模型,而是争夺谁先把自己的独特资产,转化为可以被智能体持续调用、持续校正、持续积累的结果机器。

打开网易新闻 查看精彩图片

企业AI转型的四步跃迁

管理者行动指引

管理者的首要任务不是评估哪个模型最强,而是审视自身:我们有没有把独特的业务判断和执行流程,转化为智能体可以持续调用的系统资产?

02

重新认识企业资产:

真正有价值的不是数据,而是判断

明确了“可持续交付结果”这一核心命题后,下一个关键问题随之浮现:企业到底拥有哪些独特资产?答案远不止数据。

企业家最容易高估的是私有数据,而最容易低估的是私有判断和私有执行权。事实上,企业真正难复制的,不只是你掌握了多少事实,而是你如何解释事实、在什么边界内行动、遇到例外时如何处理,以及谁有权限推动真实世界发生改变。

从这个角度看,企业的独特资产至少有五类,而且它们都需要被改造,才能进入智能体时代。

打开网易新闻 查看精彩图片

企业的五类独特资产及其改造方向

识别出五类资产之后,更深层的问题是:这些资产如何才能从人能理解变成机器能调用?企业里最常见的误解,是把数据直接等同于资产。

实际上,数据只是最底层原料,只有当它被解释、被判断、被协议化以后,才会变成能驱动智能体持续工作的东西。

如果企业停在报表和摘要层,智能体最多只能帮你更快地看见问题;只有当企业进一步把“什么叫好、什么时候有风险、下一步应该怎么做、什么证据算完成”写出来,智能体才开始真正形成生产力。

打开网易新闻 查看精彩图片

数据上升为知识、判断与协议的五层阶梯

管理者行动指引

建议管理者对照上述五层阶梯,评估本企业目前停留在哪一层。如果连“判断”层都尚未外化,那么再多的数据接入也难以产生持续价值。优先将最关键的三到五条业务判断规则写成可执行的标准文档,是投入产出比最高的第一步。

03

知识架构:

给智能体一张地图,而不是一本1000页的说明书

理解了资产阶梯之后,企业面临一个非常实际的问题:如何组织这些知识,才能让智能体高效使用?答案不是把文档都扔进去,而是搭建一套分层的知识架构。

这就引出第一个真正的基础设施问题:企业不是缺文档,而是缺知识架构。很多公司一听到知识库,第一反应是把文档喂给模型,或者做一个向量检索(即 RAG,一种让模型从外部文档中检索信息再生成回答的技术)。

这样做可以解决找资料的问题,却解决不了“谁是权威版本、信息应如何分层、哪些内容可以被执行、哪些内容已经过期、不同角色如何在多轮任务中继承状态”这些更根本的问题。

OpenAI一个非常有力量的教训是:不要给智能体一本1000页的说明书,而要给它一张地图。地图的含义不是少写,而是分层写;不是把一切都塞进上下文,而是先提供稳定入口,再让智能体按索引与链接逐步深入。

Claude Code团队把这种方法明确称为“渐进式披露”:先给入口,再给搜索,再给递归探索的路径。

从企业角度翻译,你的知识库必须同时扮演三个角色:组织的记忆系统(告诉智能体这家公司是怎么想的)、导航系统(告诉智能体下一步该去哪里找答案),以及操作系统的一部分(告诉智能体哪些内容能直接拿来执行,哪些需要先验证,哪些必须升级给人)。

一套完整的知识架构,从外到内应当包含五个层次,如下图所示:

打开网易新闻 查看精彩图片

一套完整的知识架构从外到内应包含的五个层次

当知识架构准备好之后,第二个跃迁才开始:让模型从会回答问题变成会完成工作。这里最重要的变化,不是换一个更强模型,而是改变智能体的动作空间。

智能体并不是一个抽象的大脑,它总是在某个具体环境里行动:能搜索什么、能读取什么、能调用什么、能询问谁、能写入哪里、能否验证结果,这些才是真正决定产出的因素。

Claude Code团队在设计工具时有一个很有启发性的视角:工具必须与模型当前的能力画像相匹配,而不是越多越好、越通用越好。

早期模型可能需要To-do清单来防止跑偏;当模型进步之后,清单反而会变成束缚。同样,结构化的提问工具能显著降低人与智能体的沟通摩擦:当任务存在关键歧义时,Harness不能假装问题不存在,而要显式设计“澄清入口”。

在搜索上也有一个重要的转变——早期的做法是先替智能体把相关上下文找好再送给它;后来发现,给智能体搜索工具、让它自己递归探索,反而更有效。这意味着企业不应只投资于把内容扔给模型,更要投资于让模型有能力自己构建上下文。

04

为什么单个Agent不够:

企业级智能体系统的七种典型失败模式

当智能体开始真正“做事”之后,企业很快会发现:单个智能体在真实环境中会反复出错。问题大多不是出在“智力不够”,而是出在系统没有设计好。这些结构性失败有规律可循,大致可以归纳为七种典型模式:

打开网易新闻 查看精彩图片

企业级智能体系统的七种典型失败模式

把这些失败模式放回企业语境,其实非常容易理解:这和管理一个换班团队几乎一模一样。你不会让新员工第一天就独立做完一整个系统;你不会接受“我觉得差不多了”作为交付标准;你不会允许上一班离开时不写交接。

Harness只是把这些原本由优秀管理者凭经验完成的动作,机械化、系统化、持续化了。这也是为什么可靠的智能体系统,本质上是一组清晰合同在运转——意图合同说清目标与边界,执行合同说清工具与权限,完成合同说清什么证据能证明“完成”。在行动前就把这三份合同写清楚,远比事后靠人猜它有没有做对更有效。

管理者行动指引

建议管理者用这张失败模式清单做一次“压力测试”:让团队检查当前智能体项目是否存在上述任何一种失败模式,并针对每个发现的问题,指定专人设计对应的防护机制。

05

Harness:

企业智能体真正的操作系统,也是控制闭环

上述七种失败模式共同指向一个结论:企业需要的不只是一个聪明的智能体,而是一整套管控系统来约束、调度、纠偏和持续改进它。Harness不是给智能体再包一层的小修小补,而是企业级智能体系统真正的操作层。

但如果只把Harness理解成技术操作系统,还不够深,它更本质的作用来自一个朴素的思想:让系统自己对结果负责。Harness对企业智能体做的,是先定义想要的结果是什么,再让系统具备感知、执行和修正能力,使它不断向目标靠近。

打开网易新闻 查看精彩图片

Harness的控制闭环

Harness 通过“目标与标准→上下文递送→智能体执行→验证与观察→追踪与学习”五个环节形成闭环。关键在于反馈回路——系统将每次执行中发现的偏差记录为轨迹数据,再用这些轨迹持续更新规则与标准,实现自我校正与持续改进。

打开网易新闻 查看精彩图片

这七个环节少一个都不完整。很多企业今天实际上只做了其中两个:工,也就是工具接入;图,也就是做一点检索。

但没有规,智能体就不知道什么叫真正好;没有验,它就没有办法证明完成;没有学,系统每次都从同样的错误重新开始。真正的企业级转型,不是把“会做事”做出来,而是把“会越做越稳”做出来。

06

企业家角色的根本转变:

从亲自做事者,到系统设计者

技术架构只是故事的一半。当Harness开始重塑工作方式,企业的组织逻辑也必须同步演进。管理者的角色正在发生根本性转变。

OpenAI有一句非常传神的话:人类掌舵,智能体执行。真正变化的不是某个岗位会不会被替代,而是组织的控制点上移了。过去优秀员工的价值,很多体现在亲自把事做成;以后更高杠杆的价值,越来越体现在定义目标、写清标准、设计反馈、处理例外。

这带来至少五个深层后果。

● 第一,文档不再是附属物,而是基础设施——不写下来,智能体就会以机器速度、全天候地按自己的平均直觉做事。

● 第二,品味会被编码,那些过去靠高手口口相传的质量感,会被写成规则、评分卡与自动规范检查机制。

● 第三,中央边界会变得更重要,而局部自由会变得更多:边界必须统一,边界内的实现可以放权给智能体。

● 第四,人类注意力比人类劳动更稀缺,组织的瓶颈会从谁来做转向谁来判断与批准例外。

● 第五,等待成本会显著上升,而纠错成本会下降,这会倒逼企业重新设计审批与合并机制。

这也是为什么完全依赖人工审查很快会成为瓶颈。随着智能体产出速度抬升,传统逐项审批会越来越不经济。更合理的做法,是把大量重复性判断提前写成规则,只把真正高风险、真正需要常识与责任承担的节点交给人。

在组织层面,专家从亲自处理大量重复个案,转向把判断抽象成规则、只处理高风险例外;经理从盯过程催执行,转向定义目标状态、观察偏差、调整约束;IT与业务的边界也在重新划定——业务、平台、风险需要共同拥有任务合同与验收标准。

最根本的变化是:文档首先服务于机器可读与多轮继承,复盘不再停留在经验分享,而是沉淀为执行轨迹、评分规则与系统更新。

组织变革背后,是更深层的经济逻辑变化。Harness不仅改变了企业内部的运作方式,也正在重新定义企业的竞争优势和商业模式。

从企业家的角度,Harness的意义不仅是提高效率,更是改变商业模式。客户不会为“我们用了什么模型”付钱,他们只会为“任务有没有被稳定完成”付钱。也正因为如此,Harness使企业第一次有可能把原本藏在内部的能力,封装成按结果计价的服务。

例如,一家有二十年安全生产数据与专家经验的工业企业,真正有价值的并不只是历史数据本身,而是什么信号意味着风险、什么偏差应该被立即升级、什么检查顺序最能发现隐患、在什么条件下允许继续生产这一整套判断与处置协议。

把这些内容知识化、工具化、验证化,就可能形成一个按次收费的安全审计智能体服务——你卖的不再是软件功能,而是稳定的审计结果。

这会重写企业护城河的构成。未来最稳固的护城河往往有四层:私有上下文(别人拿不到的事实与历史)、私有判断(别人拿到数据也学不会的标准与品味)、私有工作流连接(别人无法轻易接入的工具、权限与执行入口),以及私有轨迹(系统在真实任务中积累下来的失败样本、修正路径与评估语料)。

这里有一个非常重要的投资原则:模型会越来越像标准品,而轨迹、评估语料和真实工作流连接会越来越像长期资产。提示词会贬值,验证集会升值;孤立的概念验证(PoC)会贬值,嵌入业务闭环的Harness会升值。

打开网易新闻 查看精彩图片

管理者行动指引

未来企业家做投资决策时,至少要反复问三遍:这项投入会不会随着模型进步而迅速过时?它有没有连接到我们独特的数据与工作流?它能否随着更强模型插入而自动受益?能自动变强的层,价值最高;只是弥补当前模型短板的投入,就应该少做、可替换。

07

从概念验证到闭环:

一条适合企业家的 90 天启动路线

战略方向明确之后,企业家最关心的问题是:具体该怎么开始?

对企业家最有用的做法,通常是一条90天路线,而不是一份三年大蓝图。90天的目标不是彻底重构公司,而是证明三件事:你的隐性判断能被外化;智能体能在真实系统里完成有价值的动作;Harness能显著降低漂移、返工与人工盯防成本。

一个好的起点,通常同时满足六个条件:任务频率足够高、完成后价值足够清晰、结果至少部分可验证、风险边界相对可控、关键上下文主要掌握在企业内部、完成结果能够进入真实系统而不是停留在聊天窗口。

最常见的错误是要么选了极其复杂、不可验证的任务,要么只做一个信息问答原型以为这就叫转型——正确路径介于两者之间:选一个足够重要、但又能定义“完成”的工作流,把它跑通成闭环。

打开网易新闻 查看精彩图片

从概念验证到闭环:一条适合企业家的 90 天启动路线

在推进转型的过程中,还需要警惕六种反复出现的认知陷阱。

● 第一,有数据等于有资产——只有当数据被上升为判断与协议、并能被验证调用时,才会形成可复利资产。

● 第二,RAG(向量检索)等于知识库——RAG 只是检索手段,知识架构还包括分层、权威性、记录、机器工件与继承机制。

● 第三,有智能体等于能自动化——没有 Harness,智能体只是偶发有效;有闭环之后才会变成稳定产能。

● 第四,最强模型最重要——模型决定上限,Harness决定你能把多少上限变成结果。

● 第五,Harness越复杂越厉害——每个脚手架都在编码一个暂时假设,模型变强后要敢于删掉。

● 第六,这件事交给技术团队做就行——真正稀缺的是业务判断与验收标准,必须由经营层共同参与。

08

结语:

真正的竞争,不是谁先接上模型,而是谁先成为“掌舵者”

把这篇文章压缩成一句话,就是:企业AI转型并不是把模型接入企业,而是把企业家的判断写进系统,并让系统围绕结果持续校正自己。数据是原料,知识架构让原料可继承,智能体让知识开始行动,Harness则让行动可以被管理、被证明、被复制、被放大。

谁先完成这一步,谁就不再只是拥有一个会聊天的模型,而是拥有一套会工作的企业能力系统。这也是为什么下一阶段真正的竞争,不是拼谁更懂模型,而是拼谁更懂自己的业务、并且有能力把这种理解转化为机器可读、可执行、可验证、可进化的规则。

那时,企业家真正的工作也会被重新定义:不再是转阀门的人,而是设计调速器、定义目标状态、并持续掌舵的人。

一言以蔽之:数据解决“看见”,知识架构解决“继承”,智能体解决“行动”,Harness解决“负责”。企业真正的飞轮,不是模型越来越聪明,而是你的判断越来越可计算、你的执行越来越可验证、你的系统越来越会自我修正。

参考文献:

1. Justin Young,《Effective harnesses for long-running agents》,Anthropic Engineering Blog,2025年11月。

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

2. Prithvi Rajasekaran,《Harness design for long-running application development》,Anthropic Engineering Blog,2026年3月。

https://www.anthropic.com/engineering/harness-design-long-running-apps

3. Ryan Lopopolo,《Harness engineering: leveraging Codex in an agent-first world》,OpenAI,2026年2月。

https://openai.com/index/harness-engineering/

4. LangChain团队,《Improving Deep Agents with harness engineering》,LangChain Blog,2026年2月。

https://blog.langchain.com/improving-deep-agents-with-harness-engineering/

5. Thariq Shihipar,《Seeing like an agent: how we design tools in Claude Code》,Claude Blog,2026年4月。

https://claude.com/blog/seeing-like-an-agent

6. LangChain团队,《Agent Frameworks, Runtimes, and Harnesses—oh my!》,LangChain Blog,2025年10月。

https://blog.langchain.com/agent-frameworks-runtimes-and-harnesses-oh-my/

7. Birgitta Böckeler,《Harness engineering for coding agent users》,martinfowler.com,2026年4月。

https://martinfowler.com/articles/harness-engineering.html

8. Philipp Schmid,《The importance of Agent Harness in 2026》,philschmid.de,2026年1月。

https://www.philschmid.de/agent-harness-2026

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

文中图片来自图虫创意,转载需获授权。

点击下方卡片,关注长江商学院