2026年2月3日,全球软件行业遭遇了被称为“软件业黑色星期二”的估值清洗。
随着Anthropic发布桌面智能体“Claude Cowork”和OpenAI推送“ChatGPT Agent Mode”,AI开始24小时无休止地接管人类鼠标和键盘。
SaaS行业三十年来赖以生存的"按人头(Per-Seat)计费"基础逻辑瞬间崩塌,万亿市值灰飞烟灭。
然而,在经历了长达四个月的恐慌与低迷后,2026年5月底的财报季吹响了绝地反击的号角——伴随着惊人的业绩公布,SaaS板块接连飞升。
例如,数据云巨头 Snowflake,本周公布的季度营收达到 13.9 亿美元,单日股价轰出 +36.48% 的天量涨幅。
这场从"提供软件工具"向"兜售赛博劳动力(Agent-as-a-Service, AaaS)"的商业重构已然跑通。而支撑头部巨头逆天改命的核心底牌,正是Agent Harness Engineering(智能体驾驭工程)。
一、企业里,多少岗位真的可以被Agent取代?
Agent到底能不能像员工一样操作电脑完成任务?
前几日,由UniPat-AI发布的SaaS-Bench提供了专门的测试标准——在23个真实SaaS系统中部署106个高难度专业工作流,到底有哪些模型能够顺利完成任务?
发现当前AI的致命软肋:即便是最强的大模型,在真实企业端到端工作流中的成功率也不足4%。
Claude Opus 4.7端到端完全通过率 3.8%——106个任务,只完整跑通了4个。
Kimi K2.2.5 / Gemini 3.1 Pro完全通过率 0%——一个任务都没走完。
SaaS-Bench 撕碎了"全自动办公"的幻想。
SaaS-Bench进一步指出了Computer Use Agent四大失败模式:
1.路径衰减与失忆: 超过100步的跨系统操作中,AI极易丢失上下文——在哪个节点停的、为什么停,全忘了
2. 错误级联: 早期步骤的一个小错误,会在后续流程中产生连锁反应,导致后半程检查点全部无法抵达
3. 闭环缺失: 模型完成操作后不会主动核实,经常越权操作或产生了幻觉,还汇报“任务完成”
4. 平台不稳定: SaaS界面的细微变化,或长流程中的任何波动,都会导致输出剧烈抖动,同一任务多次执行结果不一
换句话说:大模型是智力引擎,但直接把它接进企业业务主干,就像让盲人在高速公路上飙车——能跑,但随时可能出事。
LLM和企业真实场景之间,存在一道鸿沟。这道鸿沟需要有人来填。
二、商业本质:Agent Harness Engineering 到底是什么?企业的SaaS系统是一个高度复杂的业务流程网络,跨部门协作、跨软件平台、跨目标管理。即使是工作多年的资深员工,也需要花时间才能完全掌握。一个裸的大模型更难完成。SaaS巨头们敏锐地捕捉到了这一痛点。它们意识到:SaaS向AaaS(Agent-as-a-Service)的演进,本质上已不再是出售软件界面,而是向企业兜售“Agent Harness Engineering”(智能体驾驭工程)服务。核心公式:Agent = Harness + 大模型在AI时代,Harness是围绕大模型构建的一整套基础设施,其使命是确保AI能够在真实的企业业务环境中安全、稳定、可控地执行任务。一个完整的企业级Harness包含五大核心支柱:
1.状态锚定(State Grounding):为AI外挂长期记忆,实时对接过去数年的业务状态,避免模型“失忆”。
2. 编排层(Orchestration):负责跨系统调度,处理网络波动、接口异常等环境问题,将自然语言意图转化为可执行的系统调用。
3. 边界防御与权限控制(Guardrails):实施静态权限隔离(Least Privilege),硬编码拦截越权操作,防止核心数据被篡改或泄露。
4. 可观测性与审计(Observability):充当“黑匣子”,完整记录智能体的每一次推理、决策与执行动作,确保合规与事后追责。
5. 人机协同切换(Handoff):设定置信度阈值,在遇到边缘复杂案例时自动暂停任务,无缝呼叫人类员工接管审批。
但光有脚手架还不够,还得有人去现场搭建。
2026年,硅谷掀起了最疯狂的抢人大战——争夺对象正是FDE(Foundational Deployment Engineer,基础部署工程师)。
这些“AI泥水匠”年薪普遍在40万至80万美元,提着电脑、带着睡袋长期驻扎在世界500强企业的机房里。他们需要:
徒手梳理20年前的遗留代码寻找可用接口;
把客户混乱的业务黑话翻译成结构化的Harness适配器;
将娇贵的大模型硬塞进企业古老的系统中,让其真正跑通。
硅谷最新流行的一句话是:“没有FDE弄脏双手的AaaS,全都是PPT里空转的废纸。”
正因如此,ServiceNow凭借自建的全职FDE军团,牢牢锁定了大型企业客户;而Snowflake高度依赖第三方外包,在落地壁垒上明显薄弱。
2026年5月底的华尔街在财报之后,用真金白银彻底打消了市场对“SaaS将被AI颠覆”的疑虑:谁能率先帮企业构建出稳定、可控、可计费的Agent Harness,谁就能把AI的能力转化为持续的印钞机。
三、行为锁定:AaaS时代真正的护城河当基础部署工程师(FDE)将Harness在企业环境中搭建完成后,真正的长期价值锁定才刚刚开始。这就是AaaS最核心的竞争壁垒——行为锁定(Behavioral Lock-in)
传统数据可以导出,但AI Agent在长期运行中积累的“组织特异性知识”却难以迁移。这些知识包括:特定经理的审批偏好、工单优先级处理逻辑、跨部门隐性协作规则等。经过18个月的持续运行后,Agent已深度适配企业的实际运作方式。
如果企业决定更换平台,新引入的Agent需要经历长达数月的“适应期”(黑灯探路期),才能达到原有系统的效能。这相当于失去了一位掌握大量隐性业务经验的“资深员工”,切换成本显著高于传统SaaS时代。
三家公司在行为锁定与Harness能力上的对比:
ServiceNow (NOW):在Guardrails(边界防御)和跨系统编排上具备显著优势。其AI Control Tower提供较强的强制性权限控制和成熟的人机切换机制,在强合规、ITSM和复杂运营场景中护城河较深。行为锁定效果最为明显。
Salesforce (CRM):Agentforce在CRM、销售和服务等前端工作流调度上表现强劲,已形成可观的业务增量。但在治理深度和跨系统强制性上相对ServiceNow仍有差距,整体处于稳健过渡阶段。
Snowflake (SNOW):作为数据平台,在数据密集型分析和单点洞察任务中优势突出,但缺乏原生的复杂工作流引擎和跨系统编排能力。因此,其行为锁定相对较弱,更适合作为数据后端与其他平台组合使用。
Harness本身只是基础,真正决定长期竞争力的,是企业能否将技术框架与实际业务深度融合,以及部署团队的执行能力。
五、后人头费时代的生存法则
对于企业买家:
评估供应商时,不要只看技术参数。最有效的验证方式——拿一个真实业务场景让供应商跑一遍,看中途断点在哪里、出了问题谁能接管、ROI怎么算。
对于SaaS从业者:
思考自己的产品在AaaS时代的定位——是提供工具,还是提供能力?如果能提供Harness层以上的"AI在特定场景中按我的规矩办事"的能力,定价权才会真正转移到你这边。
对于创业者:
Harness Engineering的基础设施层,现在还存在大量空白。状态管理、跨系统上下文传递、权限边界配置、审计日志标准化——这些"苦活累活"恰恰是大厂不屑于做、但企业刚需的东西。
2026年这场大洗牌,完成了软件业的一次物种进化。AI能力正在不可逆地商品化,而基于复杂业务场景的Harness能力,正在变得稀缺且昂贵。
谁能率先掌握并定义Harness的行为边界,谁就能在这场变局中握住新的商业权柄。
热门跟贴