Anthropic去年12月抛出一个"编排者模式"的论文,简单说就是让一个AI当导演,指挥其他AI干活。今年1月又有人把"评判者模式"加进来——再加一个AI当裁判,专门挑刺。听起来像办公室政治,但确实能降低幻觉。
我把这两个模式焊在一起,塞了三个谷歌Gemma模型进去。不是云端那种,是本地跑,M5 Max的笔记本,风扇都没怎么转。三个小模型互相拉扯:一个出方案,一个挑毛病,第三个拍板。没人告诉它们"要合作",代码里只写了竞争规则。
最魔幻的是旁观视角。我坐在屏幕前看它们后台吵架,像看三个实习生互相甩锅。Gemma 2B写的方案被Gemma 4B判"逻辑漏洞",Gemma 7B的终审意见又被前两个联合反对。没有人类介入,循环了47轮才收敛到一个答案。
准确率比单模型提升了12%,但耗时翻了8倍。这买卖划不划算?取决于你有多少电费和时间。谷歌开源这些模型时大概没想到,用户会拿它们搞内部民主。
有个细节:三个模型对"几乎零信任"的理解完全不同。2B认为"质疑一切",4B理解为"交叉验证",7B干脆当成"多数决投票"。同一个prompt,三种宪法解释——这大概是多智能体系统最诚实的bug。
热门跟贴