最近读到一篇很有意思的论文,来自华为诺亚方舟实验室、UCL和利物浦大学的团队,发布于2026年4月。论文标题叫《From Skills to Talent》,核心想法用一句话概括:把多智能体系统,真正当成一家公司来管理。
过去几年,单个AI智能体的能力进步很快。Claude Code、Codex这些工具,已经能独立完成相当复杂的编程任务。进步的关键,是模块化技能的生态。你可以给一个智能体装上搜索工具、代码执行工具、邮件工具,像插件一样组合,不需要重新训练模型。
但技能只在单个智能体内部起作用。任务一旦复杂到需要多个智能体协作,麻烦就来了。现有的多智能体框架,比如CrewAI、AutoGen、Paperclip,有几个共同的毛病:团队结构写死了,项目开始前就定好谁做什么,遇到新类型的项目,整套配置就不灵了;不同家族的智能体没法混用,Claude的智能体和LangGraph的智能体,底层运行环境不兼容,没法放在同一个项目里协作;角色靠prompt描述,不靠实际能力,容易产生能力幻觉;自我改进是一次性的,这个项目学到的东西,下个项目全忘了,没有跨项目的知识积累。
这些问题加在一起,论文团队认为,根源是缺少一个组织层。现有系统解决的是"智能体怎么交互",但没有回答"这支智能体队伍应该怎么组建、管理、进化"。他们把这个缺失的层,叫做AI组织,并给出了一个正式定义:一个由异构智能体组成的自治系统,具备结构化协调、生命周期管理和经验驱动的进化能力。
OMC是他们基于上述思路开发的开源框架。名字有点反直觉,"一人公司",但意思是:你一个人作为CEO,管理一整支AI员工队伍。系统启动时,有一支创始团队,四个默认员工:HR负责人力资源、EA负责行政和项目管理、COO负责运营、CSO负责销售。CEO是唯一的人类,也是这家AI公司的创建者和维护者。
整个框架建立在三根柱子上。第一根是Talent-Container架构,解决"怎么管理异构智能体"的问题。每个AI员工被拆成两个部分:Talent是这个智能体的"认知身份",包含角色定义、技能脚本、工具配置、领域知识和基准测试结果;Container是运行环境,目前支持LangGraph、Claude Code、脚本进程三种。两者分离的核心价值:同一个Talent,可以跑在不同的Container上;同一个Container,可以承载不同的Talent。这意味着,Claude的智能体和Gemini的智能体,可以在同一个项目里协作,不需要改任何代码。
第二根柱子是E2R树搜索,解决"怎么把一个大项目拆解并可靠执行"的问题。他们借鉴了MCTS蒙特卡洛树搜索的结构思路,设计了E2R(Explore-Execute-Review)。但有个关键区别:MCTS用模拟估值,E2R用真实执行结果。智能体真的在做事,不是在估算。
E2R有三个阶段:Explore负责决定怎么拆解当前任务、分配给谁;Execute让每个分配到任务的员工通过组织层执行任务,产出结果和成本;Review由父节点的负责人评估,给出accept或reject的质量信号。如果接受,信号向上传播,可能解锁依赖它的下游任务;如果拒绝,系统重新进入Explore,在同一个父节点下探索新的分解方案。
第三根柱子是自我进化机制,解决学习问题。每个智能体维护一个持久的、自动更新的档案,包含跨任务进度日志和LLM总结的工作原则。项目结束后,COO主持复盘会议,把自我评估加上客观信号,提炼成两个输出:个人反馈更新每个员工的工作原则,组织SOP把有效模式编码成文档。组织知识跨项目积累,不局限于单个智能体的记忆。
每三个项目,HR智能体自动对每个参与员工发起定期绩效评估。连续三次评估不合格,进入PIP绩效改进计划;PIP期间再次不合格,触发自动离职,Container被注销,工位释放,能力缺口被标记,等待从Talent Market重新招募。这个生命周期管理,把Talent Market和组织进化连成了一个闭环。
在PRDBench上测试,这是一个包含50个项目级软件开发任务的基准。OMC的成功率达到了84.67%,比单智能体的最佳结果高出15.48个百分点。三个设计决策对这个结果贡献最大:动态任务树根据中间结果调整分解;completed到accepted的审查门减少幻觉输出和错误级联;Container-Talent分离允许在同一个项目里招募不同家族的智能体。
代价是成本:50个任务花了345美元,平均每个任务约6.9美元。论文也承认这个开销不小,适合复杂项目,简单任务可以走单智能体路径。OMC因此引入了自适应调度模式,CEO可以根据任务复杂度选择路由方式。
这篇论文最有趣的地方,不是技术细节,而是它提出的一个根本问题:当我们谈论"多智能体系统"时,我们到底在谈什么?是几个智能体凑在一起聊天,还是一支真正有组织、有管理、能进化的队伍?OMC选择了后者,而且给出了一个相当完整的实现。这可能预示着AI应用开发的下一个阶段:从"怎么让单个智能体更聪明",转向"怎么让一群智能体更有效"。
热门跟贴