AI代理(Agent,能自主执行任务的智能程序)吹了三年,有个bug始终没人敢碰——当代码遇到真实世界的脏活,谁来擦屁股?一家叫Deploy Humans的公司给出了答案:让人类当"执行层",分数直接飙到108。
这个分数来自HackerNoon的"有用性证明"(Proof of Usefulness)评分体系。同场竞技的Data Horizon只拿到34分,Image to Photo 28分。差距不是一倍,是断层。
108分怎么来的?
Deploy Humans的定位很刁钻:不做AI本身,做AI的"手脚"。他们的平台把人类任务执行者嵌入代理经济的工作流——当AI遇到需要物理操作、复杂判断或实时验证的环节,系统会自动派单给真人。
「我们不是在替代AI,是在补全它。」创始人这样解释。这套逻辑踩中了一个被刻意回避的真相:当前大模型的"幻觉"(Hallucination,生成虚假信息的倾向)和工具调用能力,在真实业务场景里经常掉链子。
评分细则显示,Deploy Humans在"解决真实问题"和"可扩展性"两项拿了满分。评委的备注很直接:「这是第一个把'人在回路'(Human-in-the-loop,人类参与决策流程)做成基础设施的项目,而非权宜之计。」
代理经济的"最后一公里"陷阱
过去两年,AI代理赛道挤满玩家。从AutoGPT到各种"智能体框架",演示视频一个比一个炫——订机票、写代码、管库存。但落地时普遍卡在同一关:最后一公里的执行。
举个例子:AI代理可以生成一份市场调研报告,但让它去联系10位行业专家做深度访谈?它连对方的微信都加不上。能规划供应链优化方案,但让它去仓库盘点实际库存?它没手。
Deploy Humans的解法是把这类任务拆解为"可验证的人类工作单元",用类似众包平台的机制匹配执行者。关键创新在于与代理系统的深度集成——AI不是发完指令就等着,而是能实时接收人类反馈,调整后续策略。
这种模式在物流、医疗合规、高端客户服务领域已有试点。某物流公司的测试数据显示,接入人类执行层后,代理处理异常订单的完成率从31%提升到89%。
为什么现在?为什么是他们?
时机选得很准。2024年下半年起,"代理疲劳"开始蔓延——企业发现,纯AI代理的ROI(投资回报率)在复杂场景里很难算平账。Gartner去年Q3的调研显示,62%的AI代理项目因"执行缺口"延期或缩水。
Deploy Humans的团队背景也耐人寻味。核心成员来自Amazon Mechanical Turk(亚马逊的众包平台)和若干失败的"全自动"代理初创公司。用他们自己的话说:「我们在两边都栽过跟头,知道纯人工和纯AI都走不通。」
融资方面,他们去年完成了种子轮,金额未披露。但HackerNoon的评分曝光后,已有两家硅谷基金主动接触——其中一家专门下注"人机混合"赛道。
108分背后的争议
高分也引来质疑。有开发者社区的声音认为,Deploy Humans的模型"不够性感"——它没有训练自己的大模型,没有端到端的自动化,本质上是个"高级外包平台"。
这种批评漏掉了一点:当前技术条件下,"性感"和"有用"往往是反义词。同场评分的Image to Photo拿了28分,它的老照片修复工具确实酷炫,但市场规模和壁垒一眼看到头。Data Horizon的GA4对话分析也是同理——功能完整,但Google Analytics本身就在往这个方向迭代。
Deploy Humans的壁垒在于网络效应。人类执行者的技能图谱、特定行业的验证标准、与代理系统的API(应用程序接口)对接深度,这些需要时间沉淀,不是砸钱能复制的。
一个细节值得玩味:他们的平台命名刻意回避了"AI"字样,叫"Human Execution Layer"(人类执行层)。这种"反潮流"的诚实,反而在审美疲劳的市场里形成了记忆点。
HackerNoon的评委在闭门讨论时提了一个问题,没写进公开评语:「当AI的能力边界持续扩张,人类执行层会不会被逐渐压缩?」Deploy Humans的回应是,他们押注的不是"人类vs AI",而是"需要问责的场景永远需要人类签字"。
这个判断能否成立,可能取决于监管而非技术。欧盟AI法案已经把高风险场景的"人类监督"列为强制要求,美国FDA对AI辅助医疗的审批也在收紧人工审核条款。如果政策风向持续,Deploy Humans的"人肉补丁"可能从权宜之计变成合规刚需。
评分公布一周后,他们的候补执行者名单增长了340%。其中有多少是冲着108分的噱头,多少是真看懂了模式,恐怕连团队自己也分不清。
热门跟贴