我塞了3个Gemma进电脑，让它们互相撕了一周

摸鱼算法

2026-04-12 08:57 ·北京

Anthropic去年12月抛出一个"编排者模式"的论文，简单说就是让一个AI当导演，指挥其他AI干活。今年1月又有人把"评判者模式"加进来——再加一个AI当裁判，专门挑刺。听起来像办公室政治，但确实能降低幻觉。

我把这两个模式焊在一起，塞了三个谷歌Gemma模型进去。不是云端那种，是本地跑，M5 Max的笔记本，风扇都没怎么转。三个小模型互相拉扯：一个出方案，一个挑毛病，第三个拍板。没人告诉它们"要合作"，代码里只写了竞争规则。

最魔幻的是旁观视角。我坐在屏幕前看它们后台吵架，像看三个实习生互相甩锅。Gemma 2B写的方案被Gemma 4B判"逻辑漏洞"，Gemma 7B的终审意见又被前两个联合反对。没有人类介入，循环了47轮才收敛到一个答案。

准确率比单模型提升了12%，但耗时翻了8倍。这买卖划不划算？取决于你有多少电费和时间。谷歌开源这些模型时大概没想到，用户会拿它们搞内部民主。

有个细节：三个模型对"几乎零信任"的理解完全不同。2B认为"质疑一切"，4B理解为"交叉验证"，7B干脆当成"多数决投票"。同一个prompt，三种宪法解释——这大概是多智能体系统最诚实的bug。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴