打开网易新闻 查看精彩图片

来源:探索AGI

上个周A➗的开发者大会,视频陆陆续续出炉了。 这一次可以说是一场Agent大会,基本都在围绕,如何做好Agent,如何发挥模型极限价值。

Anthropic虽然现在搞得自己名声不咋地,但是分享的实战经验是实打实的。

打开网易新闻 查看精彩图片

今天分享一个很有意思的主题,关于多智能体的。我把几场分享相关的内容都结合到一起来看,发现Agent也在经历人的组织管理的一些事情。

故事先从Omni CTO的分享开始。 Omni是一家做AI分析的公司,25个工程师做了一个叫Blobby的Agent,用户问问题,Blbby找到合适的结果返回给用户。 18个月,进化了好几个版本,现在可以自己拆任务、自己纠错、自己选工具,像真正的数据分析师一样。

打开网易新闻 查看精彩图片

直到有一个,CEO问了Blobby一个问题,Blobby给了一个离谱的答案。

CEO立马找到团队说:go fix it. 开发团队回复:LLM有不可预测性,有时候就是会犯错。CEO说了一句话:Not good enough. Go fix it.

这个故事太有共鸣了,在我的工作里边,真的每天都在现实上演,但真正有意思的是这个故事的后续。

当CEO反复要求 go fix it,团队认真去读模型的推理traces。

去研究模型每一步决策的思考过程,理解它为什么做这些决策,然后他们发现了问题的根源。

Blobby的架构是这样设计的:一个外层Agent负责理解用户问题、拆解任务列表;一个内层Sub-Agent专门负责生成数据查询。典型的多Agent,各司其职的架构。

问题出在:外层Agent不知道内层Agent能做什么。

外层Agent可能说:把GitHub PR数据和客户支持数据合并起来分析一下。 但是内层Agent回答:我单次查询做不到这件事,需要跑多次。

然后整个对话就开始跑偏,Agent都没有问题,外层Agent根据用户问题做了合理的拆解,内层Agent也如实报告了自己的限制。问题在于:它们对彼此能力边界的认知是断裂的

他们把这个现象取了个名字叫:Split Brain精神分裂。 修复策略叫Blobotomy——Blobby + Lobotomy(脑叶切除术)。

很黑色幽默。。。

打开网易新闻 查看精彩图片

修复方案特简单:把内层Agent的工具直接上提到外层Agent中,消除中间层。一个Agent同时拥有“理解问题”和“生成查询”的全部能力。

结果是,大量看似随机、不可预测的错误消失了。复杂场景的评测分数大幅提升。

打开网易新闻 查看精彩图片

将这些东西的时候,虽然Chris的语气很平静,但你能感觉到他在说一个教训:Agent的不可预测,很多时候不是模型的问题,是架构的问题。而架构问题,用读traces的方式,是可以找到的。

打开网易新闻 查看精彩图片

同样的问题,不同的解法

另一个分会场,Anthropic Applied AI团队的Ash讲了另外一个故事,症状是一致的,原因不同。

打开网易新闻 查看精彩图片

他们在尝试让Claude连续跑好几个小时,构建完整的应用,架构里有三个角色:Planner(做高层规划)、Generator(写代码和构建)、Evaluator(打分和测试)。

打开网易新闻 查看精彩图片

问题来了,如何做好打分,以及打分之后的迭代闭环?

打开网易新闻 查看精彩图片

如果你让同一个Agent自己写代码又自己评价自己的代码,会怎样?

Out of the box, Claude is a really, really bad general QA agent.

因为LLM天然有sycophancy bias,讨好倾向。让它评价自己的产出,就像让一个员工自己给自己评价绩效,什么都是超预期的。

但如果用2个角色,一件有趣的事就发生了:调教一个独立的critic让它变严格,其实非常容易。调教一个builder让它自我批评,几乎不可能。

举个例子:我们自己去评价一道菜好不好吃、评价一个短视频好不好看,很容易。 但是你让我去把菜做出来,把视频拍出来,那就是另外一回事了。

评价能力和创造能力之间有一个天然的gap。

角色分开只是第一步,新问题是:Generator和Evaluator对“做完”的定义不一样怎么办?

这就是Ash团队提出的解法,在动手之前,先协商签订协议。

Generator开工写代码之前,它和Evaluator要先谈判。Evaluator可能会说: 你范围定大了,你的测试标准太松了,你漏掉了某个边缘场景。

两个Agent通过文件系统来回交换意见,一个写markdown,另一个读、批注、回复,直到双方达成一致。

打开网易新闻 查看精彩图片

然后Generator开始建造,而Evaluator根据前面讨论的协议来打分。

If you have vague criteria, you have vague critiques, the generator just shrugs and does things.

如果标准模糊,反馈就模糊,builder就耸耸肩继续做。

打开网易新闻 查看精彩图片

到这里,我开始觉得这件事真正有意思的地方,不在技术。

我看了这2场之后,脑子只在想: 如果我把“Agent”这个词换成员工,把Planner换成产品经理,把Generator换成开发工程师,把Evaluator换成测试工程师,几乎分不出这是在讲AI架构设计还是在讲公司管理。

管理的人不了解下属能力边界 → 指令与执行脱节。 这是很多企业都有的问题。

让员工自己评价自己 → 永远是超预期。这也是绩效管理的经典问题。

开工前先对齐DoD(Definition of Done)→ 产出质量可控。 这是敏捷开发社区喊了20年的事情。

甚至解决方案都类似。Omni说的 Consolidating the Brain,把工具上提,减少层级,这不就是组织扁平化吗?

Anthropic的先商讨协议,这不就是sprint planning里对齐验收标准吗?

所以,Agent似乎在重演人的组织形式。

Anthropic给过一个说法,翻译是:仔细看,PM,IC,QA的组织架构,我们没发明什么新东西,只是给每个角色分配了适合自己的Context。

If you squint at this, this is just a very simple PM, IC, and QA org structure. We didn't invent this, we just gave each role its own context window.

这句话背后其实有个判断,Agent系统的协作难题,不是AI特有的问题。它是任何分布式系统,无论节点是人还是AI,都必须面对的基本问题:

  • 信息不对称:谁知道什么?谁不知道什么?

  • 能力边界:每个角色能做什么、不能做什么?

  • 标准共识:什么叫“做完了”?

  • 协调成本:层级越多、角色越多,对齐成本越高。

人类社会花了几千年来发展组织理论和管理学,本质上就是在回答这些问题。Agent系统花了18个月,跑到了同样的路口。

随着模型变强,有些问题会消失,新的问题会出现。 这跟人类组织的演进一模一样,公司从10人到100人到1000人,管理的挑战不会消失,它只是换了形态。10人时的问题是“谁干什么”,100人时变成“部门怎么协调”,1000人时变成“信息怎么流通”。

Agent架构也是如此。今天是split brain,明天模型更强了,可能不需要拆成outer agent和sub-agent了。但新的协调问题一定会出现——可能是跨Agent的记忆一致性,可能是多Agent同时修改同一份文件时的冲突。

管理问题不会被AI消灭。AI会让管理问题以新的方式复活。

参考地址:

Anthropic Applied AI分享:https://www.youtube.com/watch?v=mR-WAvEPRwE

Omni CTO分享: https://www.youtube.com/watch?v=K4-flzsPraE

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”

打开网易新闻 查看精彩图片

未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)