全文 6,000字 | 阅读约 40 分钟

 AI 告别独行:OpenAI 研究科学家 Noam Brown 讲透多智能体 “团队作战” 新规则
打开网易新闻 查看更多视频
AI 告别独行:OpenAI 研究科学家 Noam Brown 讲透多智能体 “团队作战” 新规则

(OpenAI研究员 Noam Brown访谈精彩片段)

在单机 LLM 时代,你给模型 1 秒算力,它就只“想”1 秒;

Noam Brown 说,这种玩法已经过时了。

6 月 20 日,OpenAI 首席研究科学家、多智能体研究负责人 Noam Brown,在 Latent Space 播客中描绘了一份全新蓝图:

把推理阶段的算力增加 1 倍, 等于把模型规模扩张 1,000 到 10,000 倍。

这条新曲线背后,他提出了两个关键机制:

  • 延长思考时间:让模型在回答问题时多'停一停',而不是急着给答案;

  • 团队式协作:将问题拆解,交给不同“专业智能体”并行处理,最后再达成共识。

更有意思的是—— Noam 并不是在纸上谈兵。

就在两个月前的外交游戏世界锦标赛上,他本人亲自夺冠。他坦言,自己就是被 OpenAI 内部 AI 系统 Cicero 训练出来的,并把“推理协作流程”原封不动搬上现实牌桌,效果立竿见影。

一句话概括他的判断:AI 要想真正提速,不靠做大,而靠组队。

接下来,你将在本文读到:

  • 为什么 Noam 认为"让 AI 多思考一会儿",比单纯增加模型大小更管用;

  • AI 团队协作如何从"实验阶段"发展成可以直接应用的标准方案;

  • 开发者真正需要学会的,不是怎么写提示词,而是如何管理和协调 AI 团队。

Noam Brown 已经写下这份“AI 团队作战”新规则,关键问题是:你准备好当 AI 团队的指挥官了吗?

第一节|从外交游戏到世界冠军:AI 开始学会合作

Noam Brown 的研究生涯,从教 AI 玩游戏开始。

他曾是Poker(德州扑克 )AI 的核心研究员,最早在 Facebook(现 Meta)带队做出超越人类顶级牌手的对战程序。相比扑克的数学博弈,'Diplomacy'外交游戏的复杂度要高出几个档次。

这不是拼牌技,也不是靠运气。外交游戏的核心在于:谈判与联盟。

玩家之间需要不断交谈、交换信息、结盟背叛,同时又得让人信你,才能走到最后。这让它成为 AI 最难攻克的类型之一——

不仅要懂语言,还要像真人一样会说话。

冠军之路不是胜负,而是“共事能力”的展示

Noam 回忆说,在开发 Cicero(OpenAI 内部一个用于玩外交游戏的 AI 系统)时,他发现:这不再是一个模型输出句子的任务,而是一个懂怎么互动的挑战。

他说:

“当机器人说出一句人类通常不会说的话,你不知道这是个 bug,还是它真的很聪明。”

为了解决这个问题,他不是光调模型,而是自己去学游戏。

他看比赛录像、刷教程、自己参赛,甚至在调试过程中,还被模型启发反向提升了技巧。他说:“Cicero 有时会做出人类不会选的策略,但那不是错,那是我没想到。”

2022 年底,Cicero 正式公开时,已经可以在外交平台上击败绝大多数人类玩家。但 Noam 没停下。他继续用这套 AI 思路练习自己。

直到 2025 年,他亲自参加了旧金山举办的World Diplomacy Championship(世界外交锦标赛),并拿下冠军。

他在播客中坦言:我是在开发 Cicero 的过程中学会这个游戏的。甚至在比赛中,我把 AI 的推理方式搬到了现实牌桌上,结果非常有效。

最关键的不是他赢了比赛,而是—— 他让我们看到,AI 不只是和人“对话”,而是能和人一起完成复杂目标。

它不再只回答问题,而是开始理解:如何在多方交互中推进自己的目标。

真正厉害的 AI,不是装得像人,而是“被人信任”

Noam 总结说:

“我们早期很担心,万一玩家意识到自己在和 AI 对话,他们就会进入一种‘防机器人’模式,开始处处提防。但有意思的是,他们根本没意识到。”

为什么?因为 Cicero 并不像传统机器人那样“机械”或“刻板”,反而学会了用人类的语言模式自然地参与沟通,甚至偶尔出错,也能像人类那样糊弄过去。

比如有人对它说:“你上次不是答应和我联合吗?”

模型却回:“我没说过这话。”

对方贴出聊天记录说:“你看,就在这里。”

模型继续说:“不,你记错了。”

大多数人会怎么想?Noam笑说:

人类玩家反应是——‘哦,也许他昨天太累了, 或者喝醉了,或者在逗我。’ 他们并没有立刻想到‘这是个机器人’。

这说明了一件事:

当 AI 不再装聪明,而是真的“懂互动”,它就能自然地融入协作型环境。

外交游戏只是起点。在 Noam Brown 看来,Cicero 代表的是一种新的 AI 能力方向:不是更聪明,而是更擅长一起完成任务。

这,正是“AI 团队作战”的开端。

第二节|AI 是怎么“想”出一个好答案的?

Noam Brown 提到一个关键问题: 很多人以为 AI 是越训练越聪明,但其实,让它在回答问题之前多想几秒,比你给它换一个更大的模型还管用。

他说:

在推理阶段多花一点计算资源,就像你让模型多思考几分钟, 它会给出完全不同的答案。

这就是他口中的 “推理计算”(test-time compute)。简单说,就是:你不是换了个更大的脑子,而是用原来的脑子,多花点时间,好好想一想。

Noam 举了一个非常打动人的类比:

“我们发现,推理计算的提升 相当于把模型规模放大 1000 到 10000 倍。”

换句话说:

  • 你不一定非得去造一个更大的模型;

  • 把原有模型用对方法,让它思考得更充分,它就会“表现得像个天才”。

真正的推理,是把一个想法拆成好几步

那 AI 到底是怎么多想一步的?

Noam 用了我们熟悉的“快思慢想”模型——这不是个术语,而是一本畅销书的名字,书里把人类思维分成两种:

  • 第一种是快速反应、自动回答,比如别人问你“2+2等于几”,你不假思索就说“4”;

  • 第二种是需要花时间思考的,比如让你估算10年后自己能存多少钱,这时候你就得一点点算、回忆、判断。

实际上,AI 模型也有这两种能力。但如果它还不够强,‘慢思考’根本帮不上它。

他说早期的 GPT-2 模型,根本没法从“慢思考”中受益——你让它多想,它也想不明白。但等模型强到一定程度,像 O1、O3 这种新一代推理模型,就能把一个任务拆成多步,自己一步步理清楚。

这不是随机试试,而是像人一样:

  • 先把问题拆开,

  • 再想每一步该怎么处理,

  • 最后把它们重新组合成一个有逻辑的回答。

不是聪明,而是懂得怎么思考

Noam 在访谈里特别提到:

如果你试图让一只鸽子认真下棋,它一千年都学不会。

这句话虽然听起来好笑,但其实说得很深: 不是想得越久就越聪明,得先有理解问题的能力。

很多人误以为推理模型就是在硬想答案,Noam 想表达的是:

  • 你必须先给模型打好底子——语言能力、记忆力、常识感;

  • 然后再通过训练,让它习惯把任务拆成一连串的思路;

这个过程,其实和人类大脑的发展非常像。

人类的大脑也是分层进化的。你得先进化出基本语言和逻辑,才能再长出更复杂的思考方式。

今天我们看到的 O3、GPT-4o 能做逻辑推理、结构分析、思路组织,都是因为它们“底层的基本能力”足够了,才有可能做“慢思考”。

推理不是插件,是思维方式

很多 AI 工程师会问:那是不是可以在模型上装个推理插件?

Noam 给出的隐喻很明确:这不是外挂,而是你要训练出一种新的行为方式。

真正有效的推理模型,不是你加几行代码就能让模型想清楚,而是——

  • 它知道什么时候该慢下来,

  • 它知道怎么一步步拆解问题,

  • 它知道每一步之间要怎么衔接。

他甚至说:我们在研究中看到,这些推理模型表现比外挂更稳定,也更易于控制。

这才是 Noam Brown 所说的推理范式,

它不是让 AI 看起来更聪明,而是让 AI 真正开始思考。

第三节|AI 的任务不是更聪明,而是帮你决策

Noam Brown 在访谈中讲到一个实验结果: 他带领的 OpenAI 团队,用多智能体模型解决复杂任务,效果远超预期。

我们用七个智能体协同处理一个复杂问题, 最终模型给出的答案质量比单一模型高出一大截。

这听起来很反直觉——为什么多个 AI 一起干活就更聪明了?

Noam 给出解释:

“每个模型像是一个专注于某个子任务的专家。一个负责拆解问题,一个负责查找信息,一个负责评估方案,一个负责提出建议……这就像现实生活中的团队。”

这种方式,不是把一个大脑搞得越来越大,而是用多个小脑,各司其职,再合力完成一个复杂目标。

这正是多智能体(multi-agent)协作的本质。

模型之间吵一架,答案反而更靠谱

那多个模型怎么协作呢?它们不是都在“各说各话”吗?

Noam 给出了他特别看重的一个策略,叫做 “自洽共识”(consensus through debate)。

简单说,就是:

让多个模型分别给出自己的解法,再互相挑刺、互相提问,最后找出一致结论。

Noam 指出:这不是让 AI 直接产出最优答案,而是让它先彼此挑战,逐步排除不合理的选项。

这种机制非常接近人类的会议讨论——不是谁权威谁说了算,而是通过辩论、质疑、修正,找到大家都认可的合理解。

他特别强调:

这类模型协作出来的答案,更有一致性和稳定性, 而不是凭运气。

这就是为什么,他在访谈中反复提到:模型之间不是在比赛,而是在一起‘想明白’。

可控性、稳定性、安全性,反而是协作的副产品

多智能体协作不仅提升了性能,还意外解决了一个老大难问题:AI 可控性。

Noam 觉得:

“我们一直担心模型胡说八道、不受控,但如果你让它们自己讨论,自己验证,就能很大程度上避免这些问题。”

为什么?

因为在传统单模型结构中,一旦 AI 输出错误答案,人类很难介入判断。但在“团队作战”模式里:

  • 每个模型负责一个子任务,可追踪;

  • 结论是讨论出来的,有过程可查;

  • 中间每一步都有“证据链”,而不是黑箱决策。

这就带来了一个意外好处:你不用像以前那样拼命调模型权重、改训练数据,而是可以调整个‘决策流程’。

Noam 表示:如果我们担心一个模型出错,那就让多个模型彼此校验——这比单个模型更可靠,也更安全。

这背后,其实是在做一件事:

让 AI 不再依赖一个超级大脑,而是变成一个高效小分队。

AI 的真正转折点,不是规模,而是组织结构

Noam 最后总结说:

“我们现在正处在一个重要转折点——不再是怎么把模型做得更大,而是怎么把模型用得更巧。”

这句话看似简单,背后是 AI 应用范式的根本转变:

  • 昨天的问题是模型够不够强;

  • 今天的问题是这些模型能不能一起协作;

  • 明天的问题是如何组织它们,完成更复杂任务。

你会发现,Noam 并没有谈“参数量”“训练算法”“数据集”这些传统指标,反而一直强调“协作机制”“思维流程”“讨论策略”。

他甚至回答:

这就像你给一堆聪明人安排工作——不是谁聪明谁赢, 而是谁能更好地协作。

因此,AI 的下一个提速关键,不是加大功率,而是换一种合作方式。

你不是在优化一个模型,而是在编排一个团队。

第四节|不靠插件,开发者要学会排兵布阵

Noam Brown 在访谈中谈到了自己用 OpenAI 的 Codex 编程助手的亲身体验:

Codex 是一个非常聪明的模型, 但你会发现,它缺少一个‘真正写过代码的人的经验’。

他说这句话时,并不是在抱怨模型不够强,而是在指出一个本质问题:

AI 很聪明,但对现实场景的熟悉程度太低。

它可以写出语法完美的代码段,也能回答抽象的编程问题,但:

  • 它不知道一个项目真正的优先级;

  • 它不了解“写给用户”这件事意味着什么;

  • 它不会像一个开发者一样,根据团队经验做出取舍。

Noam 的总结很直接:它就像是一个刚毕业的实习生,懂很多东西,但没有任何团队经验。

这也就解释了,为什么很多人用 AI 写代码,初期感觉神奇,但最后总是还得自己返工——因为 AI 缺乏的是“现场感”,缺乏真实团队中的反复磨合。

真正强大的 AI,得像是上了半年班的人

Noam 提出的解决方案,不是继续加大模型规模,而是—— 训练模型去积累协作经验,像一个在团队中待了半年的人那样思考。

他认为:

“我们需要的,不是一个更大的语言模型,而是一个知道如何和别人配合工作的智能体。”

他举了一个例子:比如你问一个普通 LLM:‘请给我一个项目起步计划。’它会列一个看起来不错的流程图,步骤很合理,但你一看就知道,这不是从真实经验里写出来的。

因为它没有真正:

  • 做过决策权冲突的协调;

  • 想过时间线和交付压力的关系;

  • 处理过“沟通失误”后带来的返工问题。

这些能力,我们不可能靠喂更多数据训练出来,必须让模型经历更多‘类似项目的模拟实践’。

多模型组队不是插件,是开发范式的转变

很多工程师会问:是不是以后模型调得更好,就能胜任所有任务?

Noam 的观点是:“这已经是过时的思路了”

他说:

我们该转变的,不是模型本身,而是你怎么用它。 不是靠插件功能,而是靠任务结构。

什么意思?

过去你把 AI 当工具,调个 prompt、装个插件、改点参数,它就多会一点; 但现在,你要把 AI 当同事——给它角色、职责、信息流,再设计好协作流程。

这背后是一整套操作范式(operational paradigm)的升级。

Noam 在访谈中举了一个假设性的协作架构构想:

假如未来有一套 AI 协作框架,可以分为“总协调”角色与多个“专长智能体”, 再加上一个“共享空间”来同步中间成果——

这将彻底改变 AI 开发的流程。

这不是调优模型参数能做到的,而是像架构师一样去设计整个协作流程。

从用模型到编排模型才是新范式

Noam 在访谈说了一句话,特别适合送给所有开发者:

未来开发者不是去写所有代码, 而是编排多个 AI,来完成任务流程。

这不是减少工作量的问题,而是换一种工作方式:

  • 不是每次都去写 prompt,而是设计任务流;

  • 不是每次都自己判断结果,而是让 AI 互相校验;

  • 不是做一锤子买卖,而是不断积累“协作经验”。

用 Noam 的话来说:

“每一个成功的 AI 协作项目,都会像是你雇了一批刚进公司的新人,但他们在不断‘熟能生巧’。”

你要做的,是设计一套能让他们越做越好的工作机制。

第五节|真正的 AI 团队,怎么协作才有效?

从 Noam Brown 对多智能体系统的研究思路来看,AI 协作不只是技术概念,更需要系统性的架构设计。

基于他透露的研究方向,我们可以推测未来 AI 协作可能包含五个关键要素:

不是你有多个模型就叫团队, 而是你设计了调度、角色、反馈、共识和记忆这五个环节。

我们用通俗语言拆解这五个环节:

  1. 调度(Dispatch):谁负责分任务,先做哪一步,谁后接手。就像一个小组有个组长,负责协调每个人的工作顺序。

  2. 角色分配(Role Assignment):每个模型专攻不同领域,比如一个负责理解需求,一个负责执行操作,另一个做质量检查,这是让 AI 各司其职。

  3. 反馈机制(Feedback Loop):一个模型完成后,其他模型能提建议、指出问题,形成团队讨论。

  4. 共识形成(Consensus Building):多个模型给出不同解法,最终统一成一个答案。不是投票,而是逐轮让观点接近,直到大家认同。

  5. 长期记忆(Memory)模型能记住彼此之前说过什么、做过什么,避免反复试错。协作不是一次性的,而是一个持续积累过程。

AI 团队≠人类团队,要换一种设计思路

很多人会把 AI 协作理解成人类合作的复制。但 Noam 明确指出:

你不能把人类组织架构直接套在 AI 上—— AI 没有情绪、没有动力,它们只会执行你设计的流程。

这句话背后,是一个关键提醒:

  • 人类可以靠激励、感情、经验协调协作;

  • 但 AI 团队的运行,全靠任务结构和交互机制的明确性。

你不能指望 AI 自己去沟通,你必须告诉它:

  • 你和谁对话?

  • 你看到的信息范围是什么?

  • 出现冲突时,谁的意见优先?

AI 协作团队,像一场乐团演出——每个模型是演奏者,而你是写下乐谱的人。

AI 的终极目标不是变聪明,而是彼此协作

Noam 在谈话最后,说了一句意味深长的话:我们应该追求的,不是能打败人类的 AI,而是能一起工作的 AI。

他不止一次强调,“人机协作”不是尽头,AI 与 AI 的协作才是真正的新起点。

他甚至提出一个新类比:如果说单个模型是一个人类专家,那多模型协作就是一个跨专业的智囊团。

这个智囊团要做到三件事:

  1. 彼此理解——不是输出就好,而是听懂对方的回答

  2. 互相补位——有偏差能被发现,有遗漏能被填上

  3. 共同负责——不是某个模型拍板,而是集体达成结论

这不再是 prompt 时代的“指令执行”,而是一个需要设计、协作、演化的“AI 组织体”。

如果说 ChatGPT 是 AI 个人助手的代表,那 Noam Brown 想做的,是让 AI 从“一个人帮你”,变成“一整个团队和你共事”。

他不是在设计一个新模型,而是在搭建一整套新协作范式:

  • 从 prompt 到任务调度;

  • 从单轮回答到多轮协同;

  • 从模型输出到团队共识。

一句话总结:

未来不是让 AI 更像人,而是让它们像团队。

这,才是真正的“AI 告别独行”。

结语|AI 最终不是帮你,是与你共事

在这场长达一小时的对谈中,Noam Brown只一再重申一件事:

我们正处在一个认知单位从‘单人作战’, 转向‘团队协作’的转折点。

这意味着,AI 不再是一个能回答问题的工具,而是一个能和他人协同解决问题的智能参与者。

未来,大模型的竞争不再比谁跑得快、答得准,而是比谁能更好组织团队、管理协作过程、达成可信共识。

Noam 所描绘的,不是一种更聪明的 AI,而是一种全新社会结构。

从 prompt 到 protocol,从助手到伙伴,从模型到“文明”——

我们与 AI 的关系,正在被悄悄重写。

多智能体协作的探索才刚刚开始,技术路径还在摸索中,

但变化的信号已经越来越明显。

本文由AI深度研究院出品,内容翻译自Noam Brown在Latent Space播客最新访谈。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.youtube.com/watch?v=ddd4xjuJTyg&t=1988s

https://www.latent.space/p/noam-brown

https://www.reddit.com/r/diplomacy/comments/1jw3eod/world_dipcon_2025_results

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵