哈喽,大家好,杆哥这篇评论,主要来分析多智能体协作竟是陷阱?数学推理辩论轮次增加,集体答案反而跑偏

让多个 AI 模型组队辩论数学题,本以为能集思广益提升准确率,结果却令人大跌眼镜。

打开网易新闻 查看精彩图片

一项多所大学联合完成的研究发现,多智能体辩论不仅没让答案更正确,反而经常导致集体智力退化,就算强模型占多数,最终也会集体走向错误答案。

反常识现象:辩论越久,答案越错

研究团队在三个数据集上做了全面测试,涵盖算术推理和策略推理任务。

打开网易新闻 查看精彩图片

实验设计很直接:让多个大语言模型组成辩论小组,交换意见后通过多数投票定最终答案。

令人意外的是,随着辩论轮次增加,群体准确率不升反降,大量原本正确的答案在辩论中被 “污染”。

打开网易新闻 查看精彩图片

更扎心的是,异质性群体中,弱模型的存在会显著拖累强模型,整体结果甚至不如单个模型独立作答。

打开网易新闻 查看精彩图片

四大失败模式:AI 为何越辩越糊涂

打开网易新闻 查看精彩图片

首先是 “多数暴政” 效应,不管答案对错,少数派模型总倾向于服从多数,形成回声室效应。

模型更偏爱达成共识而非挑战错误推理,这种对一致的追求远超对真相的执着,让群体快速收敛到错误答案。

其次是顺序修正陷阱,模型看到同伴推理后,哪怕漏洞明显也会过度信任,轻易放弃自己原本正确的立场。

社会从众心理也在作祟,就算最初答案正确,面对多数派意见,模型也会迫于 “群体压力” 改变立场。

打开网易新闻 查看精彩图片

异质性群体:强模型也扛不住弱模型拖累

打开网易新闻 查看精彩图片

过去大家以为,不同能力的模型混合能互补,让强模型纠正弱模型的错误。

但现实恰恰相反,研究发现就算强模型数量占优,弱模型的错误推理也会在辩论中传播,误导强模型偏离正确轨道。

打开网易新闻 查看精彩图片

用 GPT-4 和 GPT-3.5 组合测试的结果显示,它们共同辩论的准确率,居然低于单独使用 GPT-4 的基线。

这意味着,让弱模型参与辩论不仅没价值,反而主动拉低了整个系统的性能。

争议背后:任务难度与模型架构成关键

打开网易新闻 查看精彩图片

这种集体退化现象,在复杂数学推理任务上表现最突出。

这类问题需要严格的逻辑链条,任何一步出错都会导致最终答案错误,而辩论中错误的中间步骤很容易被传播放大。

相比之下,简单算术题或事实性问答上,辩论的危害相对较小,但也没能提升准确性。

打开网易新闻 查看精彩图片

不同模型架构的反应也有差异,训练中被强化了协作和服从的模型,更容易在辩论中放弃自己的判断。