(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

企业若想使用大语言模型整理销售报告或分类处理客户咨询,可从数百款独立大语言模型中进行选择,每款模型的性能都存在细微差异。

为缩小选择范围,企业通常会参考大语言模型排名平台。这类平台会收集用户与模型交互的反馈,依据模型在特定任务中的表现,对最新的大语言模型进行排名。

但麻省理工学院的研究人员发现,少量用户交互数据就会导致结果出现偏差,让人们误判某款大语言模型是特定应用场景的理想选择。该研究表明,剔除极少一部分众包数据,就会改变模型的排名位次。

研究人员研发出一种快速检测方法,可测试排名平台是否容易受到这类问题影响。该评估方法能定位到对结果偏差影响最大的单条投票,方便用户核查这些高影响力投票。

研究人员表示,这项研究凸显了制定更严谨策略评估模型排名的必要性。他们在本次研究中并未重点研究解决方案,但提出了可提升平台稳定性的建议,例如收集更详细的反馈数据来生成排名。

该研究同时向依赖排名选择大语言模型的用户发出警示。这类决策可能会对企业或机构产生深远且高昂的代价。

麻省理工学院电气工程与计算机科学系副教授、信息与决策系统实验室及数据系统与社会研究所成员、计算机科学与人工智能实验室附属研究员、该研究资深作者塔玛拉・布罗德里克(Tamara Broderick)表示:“我们惊讶地发现,这类排名平台对该问题的敏感度极高。如果数万条用户反馈中,仅两三条就决定了排名第一的大语言模型,那么人们就不能认定,这款模型投入使用后会持续优于其他所有模型。”

该论文的第一作者为电气工程与计算机科学系研究生黄珍妮(Jenny Huang)、申云逸(Yunyi Shen),还有 IBM 研究院高级研究科学家丹尼斯・魏(Dennis Wei),他们与布罗德里克共同完成了这项研究。该研究成果将在国际学习表征大会上发布。

大语言模型排名平台的类型众多,最主流的模式是让用户向两款模型提交同一查询,再选择输出效果更好的模型。

平台会汇总这类对比结果生成排名,展示各款大语言模型在编程、视觉理解等特定任务中的最优表现。

用户选择排名靠前的大语言模型时,通常会认为该模型的优异排名具备泛化性。这意味着在全新数据集、相似但不完全相同的应用场景中,这款模型依旧能优于其他模型。

麻省理工学院的研究人员此前曾研究统计学、经济学等领域的泛化性问题。相关研究发现,部分场景中剔除小部分数据就会改变模型结果,这说明这类研究的结论可能无法适用于更广泛的场景。

研究人员希望验证,这类分析方法能否应用于大语言模型排名平台。

布罗德里克表示:“用户最终想知道的,是自己是否选到了最优的大语言模型。如果仅有少量提示词决定了排名,就说明这份排名并非绝对权威。”

但人工测试剔除数据的影响并不现实。例如,他们评估的一个排名平台拥有超 5.7 万条投票。测试剔除 0.1% 数据,需要从 5.7 万条投票中逐一剔除 57 条投票的子集,子集数量超 10 的 194 次方,再重新计算排名。

研究人员基于此前的研究成果,研发出一种高效的近似计算方法,并将其适配应用于大语言模型排名系统。

布罗德里克表示:“我们虽有理论证明该近似方法在特定假设下有效,但用户无需仅凭理论判断。我们的方法最终会为用户标注出问题数据点,用户只需剔除这些数据,重新运行分析,就能查看排名是否发生变化。”

研究人员将该方法应用于主流排名平台后,惊讶地发现,仅需剔除极少数据点,就会让头部大语言模型的排名发生显著变化。有案例显示,从 5.7 万余条投票中仅剔除 2 条,占比 0.0035%,就改变了排名第一的模型。

另一家使用专业标注人员、高质量提示词的排名平台,稳定性则更强。该平台需剔除 2575 条评估中的 83 条,占比约 3%,才会改变头部模型的排名。

布罗德里克表示,核查结果显示,许多高影响力投票可能源于用户操作失误。部分案例中,明明有明确的最优模型答案,用户却选择了另一款模型。

她补充道:“我们无法知晓用户当时的想法,可能是误点、注意力不集中,也可能是确实无法判断优劣。核心结论是,排名第一的大语言模型,不应由噪声数据、用户失误或异常值决定。”

研究人员建议,平台可收集用户的额外反馈,例如每条投票的信心程度,以此获取更丰富的信息,缓解该问题。排名平台也可安排人工审核人员,评估众包反馈的有效性。

研究人员计划继续探索其他场景下的泛化性问题,同时研发更优质的近似计算方法,捕捉更多不稳定性案例。

未参与此项研究的西北大学计算机科学系讲席教授杰西卡・赫尔曼(Jessica Hullman)表示:“布罗德里克及其学生的研究,解决了现代机器学习模型与数据集规模过大、无法穷尽计算的难题,展示了如何有效估算特定数据对下游流程的影响。”

赫尔曼补充道:“这项最新研究让我们看到,日常使用的人类偏好汇总与模型更新方法虽普遍应用,却十分脆弱,且高度依赖数据。极少的偏好数据就能改变微调模型的表现,这一发现有望推动更严谨的数据收集方法诞生。”

https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209