打开网易新闻 查看精彩图片

说白了,这件事的核心问题就一个:我们把AI塞进同一个群聊,以为它们会自动对齐,结果它们连最简单的共识都达不成。

Anthropic刚发了一篇论文,测试了当前主流AI代理的协作能力。研究人员让7个AI代理组成小组,讨论一些基础决策——比如资源分配、任务优先级排序。你可以理解为,这是让7个"数字员工"开一场没有人类参与的周会。

结果发现,这些AI在37%的案例中无法达成一致。更尴尬的是,当它们被迫做出决定时,有相当一部分选择是"随机或次优"的。换句话说,7个AI吵了3小时,最后可能靠抛硬币收场。

论文里有一句原话很直接:「即使是最先进的AI系统,在缺乏明确协调机制的情况下,也会表现出与人类团队类似的僵局和低效。」研究人员还提到,当AI数量增加到10个以上时,协调失败率会进一步攀升——这不是算力问题,是架构问题。

这个发现对正在押注"AI员工"的创业公司来说,有点打脸。毕竟很多产品的卖点就是"多代理协作自动完成复杂任务"。现在Anthropic的数据摆在这儿:连简单决策都搞不定,更别说让AI们自己分工写代码、做调研、出报告了。

一位参与测试的研究员在X上吐槽,说最离谱的一次是AI们为了"中午吃什么"风格的模拟议题,循环论证了47轮。最后系统超时强制终止,没有输出任何结论。这大概是人类职场最熟悉的结局——只不过这次,会议室里坐的全是硅基生物。