一个AI做错了事,让另一个AI来审判它?这不是科幻设定,是开发者用Gemma 4刚搭出来的系统。

HumanLayer是个多智能体治理平台。核心思路很直接:别让单个模型闷头做所有决定,而是让多个专业智能体互相审查、互相挑刺、互相追责。

打开网易新闻 查看精彩图片

系统分两档模式。第一档叫治理委员会——5个常驻智能体并行审查上传的文档(政策文件、OAuth配置、入职流程、架构报告),对照合规框架各查各的,然后跑共识引擎,输出单一治理裁决。第二档更复杂,叫宪法法庭:4个智能体分三轮辩论对抗,4人AI陪审团验证推理质量,最后由治理法官下达宪法裁决。人类随时能上诉、能推翻。

智能体阵容有讲究。安全检察官、无障碍辩护者、隐私倡导者、伦理委员会——各司其职,用的是不同规格的Gemma 4模型(2B到31B不等)。没有智能体能批准自己的动作,没有智能体拥有无限制权力,每个治理决定都可追溯到具体的推理链条。

整个法庭流程拆成7个阶段:起诉立案→审前动议→证据开示→三轮辩论→陪审团审议→法官裁决→上诉审查。每个阶段都保留少数意见,人类随时能插进来喊停。

平台预装了8个治理模拟案例,演示不同Gemma模型组合怎么处理真实冲突。比如案例1"无障碍MFA危机":银行平台在暴力破解攻击激增后强制要求CAPTCHA+多因素认证。安全检察官用OWASP威胁模型论证加强认证的必要性,无障碍辩护者立刻标记CAPTCHA实现的问题——视障用户被挡在门外。双方用各自的专业框架交锋,陪审团评估哪边的推理更扎实。

这个设计的微妙之处在于权力分散。不是找"更聪明的AI"来监督,而是让利益立场不同的AI互相制衡。安全要锁紧,无障碍要敞开,隐私要收紧数据,伦理要算社会账——四方扯皮,反而逼出了更透明的决策过程。

开发者给每个智能体配了不同规模的模型,也是一种务实选择。需要深度推理的上大模型(31B),需要快速响应的用小模型(2B),陪审团和法官用混合专家架构(MoE)平衡速度与质量。算力花在刀刃上,而不是堆一个万能巨无霸。

最反直觉的设计是人类的位置。不是开局就干预,而是保留最终否决权。AI们先吵完、判完,人类看完整套卷宗再决定认不认。这比"人类每一步都审核"更高效,又比"完全放手给AI"更安全——至少在架构上是这么设计的。

这套系统现在还是实验性的。但它指向一个问题:当AI开始替我们做越来越多决定,谁来决定AI怎么决定?答案可能是——让另一批AI来质疑它,同时把最终开关留在人类手里。