去年有个数据挺扎眼:某头部厂商的旗舰模型在竞技场(Chatbot Arena)霸榜6个月,落地到企业客服场景却翻车率37%。排行榜上的王者,成了生产线上的青铜——这个落差,比相亲照和真人见面还离谱。
问题出在哪?
现在的AI评测,像极了高考。一个模型进考场,语数外全科solo,最后按总分排座次。但真实业务不是考试,是拍电影——你得有编剧、有演员、有剪辑,没人指望一个明星包圆全场。
Google DeepMind去年发了一篇论文,标题很直白:《Constitutional AI: Harmlessness from AI Feedback》。里面提了个被忽略的细节:他们训练Claude时,让模型扮演不同角色互相审稿,效果比单模型自我迭代好得多。角色分工,比单体智能更重要——这个发现被埋在技术细节里,没进任何主流排行榜的评分维度。
排行榜的盲区:测的是"演员",不是"剧组"
Chatbot Arena的玩法简单粗暴。两个模型匿名PK,人类裁判盲选谁回答更好。胜率加权算Elo分,排名实时更新。公平吗?公平。有用吗?看场景。
这种设计天然奖励"全能型选手"。模型得会写诗、会写代码、会解数学题、会陪聊——像个综艺咖,什么都能来一段。但企业落地时,没人需要综艺咖。
某金融风控团队跟我吐槽过:他们试过榜单Top 3的模型做合同审查,漏检率比专门微调的中小模型还高。为什么?通用模型被训练成"好好先生",面对模糊条款倾向于给出安全但无用的回答。而业务需要的是"杠精"——能较真、能挑刺、能发现"本协议最终解释权归甲方所有"这种坑。
「我们最后用了3个模型。」一位架构师说,「一个读条款,一个找漏洞,一个写批注。单模型评分没一个进前20,组合起来比GPT-4准。」
新思路:把AI当剧组来"选角"
Anthropic的工程师Riley Goodside去年在X上发了个 thread,讲他们怎么给Claude安排"角色"。不是提示词里写"你是一个律师",而是让模型在系统层面承担固定职能:有的专精事实核查,有的负责创造性发散,有的当"反派"专门挑刺。
这套玩法有个专门的名字:Multi-Agent Role Casting(多智能体角色分配)。
关键在三个维度。第一是Role(角色)——不是人设包装,是能力边界。翻译模型不需要懂股票,风控模型不需要会写诗。给每个模型发"专业对口"的剧本,比逼一个演员演全本戏更靠谱。
第二是Contract(契约)——模型之间的协作协议。什么时候该接力、什么时候该争论、什么时候该喊停,得写清楚。某电商平台的客服系统用了4个模型:接待员判断意图,专家查知识库,谈判员处理退换货,质检员全程旁听。它们之间靠结构化输出传话,不是端到端黑箱。
第三是Review(评审)——让模型互相打分。Google那篇论文的核心就是这个:用AI反馈替代人类标注,成本低一个数量级。更狠的做法是引入"红队"角色,专门负责找茬。某安全团队的配置是:主模型生成回答,攻击模型挑刺,防御模型补漏,三轮迭代才输出。
落地案例:从"选最强的"到"组最合适的"
硅谷有家做法律科技的公司Harvey,去年公开过他们的架构。不是接个GPT-4就完事,而是拆了7个环节:文件解析、事实提取、法条匹配、风险标记、起草建议、格式校对、最终复核。每个环节选不同模型,有的用开源小模型跑本地,有的调API,有的专门微调。
结果?合同审查时间从4小时压到20分钟,成本是单用GPT-4的1/5。没人关心这7个模型在排行榜上排第几。
国内也有类似尝试。某头部云厂商的代码助手,去年从"单模型问答"改成"多角色协作"。架构师模型画流程,编码模型写实现,测试模型补用例,三个模型来回扯皮,最终代码通过率比单模型高22%。
这个数字有意思。不是22%的绝对提升,是"协作"对"单挑"的碾压。排行榜测的是单挑能力,真实战场要打团战。
排行榜会改吗?很难
Chatbot Arena的团队不是没意识到问题。他们去年加了"Hard Prompts"子榜,测复杂指令跟随;今年又推"Coding"专项榜。但本质还是单模型PK,没触及"角色分工"这个维度。
为什么?评测成本。测一个模型要几千条对话,测三个模型的组合排列,样本量指数级爆炸。更别说"角色设计"本身就是业务机密,厂商不愿意公开自己的"剧组配置"。
有个妥协方案正在酝酿:固定几个标准"角色模板",比如"创意生成者""事实核查员""安全审查员",让厂商按角色提交专门微调的模型。评测时测组合效果,而非单体能力。但这需要行业共识,短期内看不到希望。
更现实的可能是"反向操作"——企业不再看排行榜选模型,而是先定业务角色,再挑对口选手。就像拍电影不找"最红的明星",找"最适合剧本的演员"。
某AI infra创业公司的创始人跟我说了个细节:他们的客户现在问的第一句话变了。两年前是"你们接的是GPT-4还是Claude",现在是"你们能配几个角色,评审机制怎么设计"。
排行榜的霸权在松动。不是因为榜单不准,是因为榜单测错了东西——就像用百米成绩挑马拉松选手,不是苏炳添不够快,是赛道根本不一样。
你的业务场景,真的需要一个"全能冠军",还是该组一支"专项战队"?
热门跟贴