“千模千测”——针对大语言模型认知能力的高效测试方法|大语言模型|数学|测试方法|算法|编程|自适应|认知能力

大规模语言模型（LLM）如 ChatGPT 等已经展现出与人类相媲美的认知能力。为了更加高效且准确地比较不同模型的能力，本文提出了一个自适应测试框架用于 LLM 评估。该框架根据各个被试（模型）的表现动态地调整测试问题的特征，如难度等，为模型“量身定制”一场考试。

本文对六个商业化的大语言模型进行了细粒度的诊断，包括 ChatGPT（OpenAI）、GPT4（OpenAI）、Bard（谷歌）、文心一言（百度）、通义千问（阿里）和星火（讯飞）。从学科知识、数学推理和编程三个方面对它们进行了认知能力排名。这种“千模千测”的方法有可能成为评估大规模语言模型的新范式。

论文链接： http://arxiv.org/abs/2306.10512

一、摘要

ChatGPT等大规模语言模型（LLM）已经展现出与人类水平相媲美的认知能力。为了比较不同模型的能力，通常会用各个领域的Benchmark数据集（比如文学、化学、生物学等）进行测试，然后根据传统指标（比如答对率、召回率、F1值）来评估它们的表现。

然而，从认知科学[1]的角度来看，这种评估LLM的方法可能是低效且不准确的。受心理测量学中的计算机自适应测试（CAT）的启发，本文提出了一个用于LLM评估的自适应测试框架：并非简单计算答对率，而是根据各个被试（模型）的表现动态地调整测试问题的特征，如难度等，为模型“量身定制”一场考试。

以下图为例，CAT中的诊断模型CDM会根据被试之前的作答行为（对/错）对其能力进行估计。接着，选题算法（Selection Algorithm）会根据该估计值选择最具信息量或最适合他的下一道题，例如选择难度和被试能力最接近的题目。如此循环往复直到测试结束。相比传统评估方法，该框架能用更少的题目更准确地估计模型的能力[2]。

本文对6个商业化的大语言模型：ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(谷歌)、文心一言(百度)、通义千问(阿里)、星火(讯飞)进行细粒度的诊断，并从学科知识、数学推理和编程三个方面对它们进行了认知能力排名。其中GPT4显著优于其他模型，已经达到了人类平均水平的认知能力。本文的诊断报告也发现，ChatGPT表现得像一个"粗心的学生"，容易失误，偶尔也会猜测问题的答案。

“千模千测”——这有可能成为评估大规模语言模型的新范式。

二、引言

近几个月来，大规模语言模型（LLM）以其强大的能力颠覆了人们对语言模型的认知。除了传统的 NLP 任务，大模型在写作、编程、作词作曲等各方面展现出难以置信的类人水平 —— 这仅仅是 LLM 能力的冰山一角。

为了充分评估LLM认知能力水平，一些最初为人类设计的各类专业或学术考试被用来对模型进行评测：

然而，依赖这些固定的考试并不高效：

(1) 它通常需要许多相应领域的专家对 LLM 的每一个回答进行评判/打分，尤其对于主观或创造性的问题。

(2) 模型回答过程中推理（inference）的开销是巨大的。例如，GPT3需要在1750亿参数的模型上进行推理、GPT4对每一千tokens收费0.03美元，并且限制了API请求的频率...

因此，本文从认知科学领域中引入了一种新的评估模式——计算机自适应测试（Computerised Adaptive Testing, CAT），建立一个自适应的、高效的评估框架：

本文将 LLM 视为一个学生，为各个模型“定制试卷”以准确评估其能力。相比传统基于答对率的方法，它所需要的题目数量更少（降低专家人工成本）、能力估计更准，是一种更符合认知能力评估的范式。本文贡献如下：

正式将心理测量学中的CAT引入LLM的评估中，分析发现每个模型的试卷中有20%～30% 的题目是不同的，这部分题目对测试的自适应性和个性化至关重要。同时，在相同的能力评估精度下，仅需要传统评估方法20%的样本/题目数量。
模型 vs 人类：本文将 ChatGPT 与不同能力水平人类进行了比较，发现它在动态规划和搜索方面的编程能力已经超越了高水平的大学生。同时，ChatGPT 经常表现得像一个“粗心的学生”，很容易失误，偶尔也会靠猜。
模型 vs 模型：本文研究了 6 个有代表性大模型，并得到它们在学科知识、数学推理和编程水平三个方面的细粒度诊断报告，发现GPT4显著超越其他大模型，其数学推理能力已经接近中等水平的高中生。

三、LLM 自适应评测框架

计算机自适应测试（CAT）是一种高效的、个性化的测试模式，已被广泛应用于各类标准化考试中（如GRE、GMAT）。它的首要目标是在准确评估被试者能力的同时尽可能缩短考试长度。相比传统的纸笔测试，CAT的测评效率更高。本节将详细介绍本文提出的两阶段 LLM 自适应评测框架：题库构建和自适应测试。

首先需要为自适应测试构建一个多样且高质量的题库：准备好要目标领域/学科的题目集，题库构建的目标就是校准所有题目的参数特征（如难度、区分度等）。由于本文需要将人和LLM进行对比，还需要收集人类在这些题目上的作答记录。本文选择测量心理学中经典认知诊断模型——项目反应理论（Item Response Theory, IRT）来对题目参数进行校准：

其中表示能力为的被试者答对题目的概率。每个题目有三个参数：难度、区分度、猜测因子。

通过在作答记录上进行参数估计，得到所有个试题的参数，以及个真实人类的估计能力值，可以后续直接用于与 LLM 进行比较。

IRT基本假设是：不同的题目对于能力评估的重要性并不相同。例如，大模型 A 和 B 在某个Benchmark中的答对率分别为 0.88 和 0.89，他们的差距可能并不像看起来那么小，甚至并不准确。因为 (1)大量简单的问题可能会淹没困难的问题，从而导致B无法显著地体现出其优越性；(2) 数据集中或存在标注错误/噪声，可能导致这些传统指标失效。下面利用估计出的题目参数列举一些例子。

1. 难度：当被试能力保持不变时，难度越大，答对的概率越小。下图是本文中的 MOOC 数据集中估计出最难和最简单的题目。解决问题需要 ChatGPT 理解 PAC，这是计算学习理论中一个非常难理解的知识点。相比之下，最简单的问题和机器学习中的“感知机”有关，初学者也可以很容易地解决。

2. 区分度：对于区分度高的问题，能力的微小变化可能会引起答对率的较大变化，因此这些题目可以更好地区分具有相似能力的被试。下图低区分度非常简单，而且这种“垂直平分线”问题有固定的套路，很难真正区分不同能力的被试。高区分度问题虽然也不难，但需要对原问题进行转换，并熟练掌握“圆与圆之间的位置关系”的相关知识。

3. 猜测因子：它主要反映低能力被试能答对的概率，可以简单理解为猜对该题的概率。对于下图的题，甚至不需要被试掌握任何编程语言的知识，就可以用常识“猜”对。然而，为了答对最小的题（下），ChatGPT需要掌握并理解JAVA中Interface的定义和用法：Interface是一个完全抽象的类'，并且能够选出所有不相关的选项；如果没有熟练掌握“Interface”的概念，想要猜对几乎不可能。

题库构建后，将正式进行自适应测试。主要包含两个核心模块：认知诊断模型和自适应选题算法。首先，诊断模型会根据LLM之前的作答情况对其能力进行估计。接着，选题算法将根据某种的信息量度量函数选择下一个对被试最有价值/最适合的题目。这两个算法交替工作，直到满足某个停止规则。

1.使用认知诊断进行 LLM 能力估计：与阶段1保持一致，本文使用 IRT 来估计 LLM 的当前能力：在第轮测试后，利用极大似然估计（交叉熵）根据 LLM 前步的作答情况（题目 , 正确性）估计出当前能力值。

能力估计值的渐进分布[3]是以真值为均值，为方差的正态分布（下图），其中为 Fisher 信息量。因此为了提高能力估计的效率（减小测试长度），减小能力估计的不确定性（方差）是至关重要的。

2.自适应选题：为了提高能力估计的效率、减小方差，本文采用最大化 Fisher 信息量的选题算法。在每一轮测试时，根据LLM当前能力估计值，选择能够使得Fisher信息量尽可能大的下个题目给模型回答：

研究发现[4]：Fisher 信息量选题方法倾向于选择(1)高区分度且(2)难度接近当前能力估计值的题目。因此 Fisher 方法不仅考虑了题目的质量（即区分度），也考虑了问题的难度对LLM的匹配性。例如，当 ChatGPT 在第轮回答正确时，选题算法将为其选择一个难度更大的问题，反之亦然。这就是为什么许多能力水平高的 GRE 考生发现考试中题目变得越来越难的原因。

四、评测效率与可靠性

本文通过上述介绍的自适应测试框架对各个 LLM 进行评测。LLM-CAT-专家的交互界面如下图所示。

评测效率:本文通过仿真实验来验证该框架的评估效率。本文随机生成100名被试的能力真值，并进行能力评估的模拟。计算每一轮的能力估计和真实能力的MSE误差(下图)，发现：与使用固定Benchmark测试集（即从数据分布中Random采样）相比，自适应评估方法在相同的估计误差下最多只需要 20% 的题量。

由于20足以满足一般自适应测试，本文将最大长度固定为20，并根据信息量指标[5]自适应调整测试长度。因此，相较于传统评估中需要LLM回答上百道题目[5]，该方法可以挑选出真正有价值的问题，最多只需要问模型20个问题，特别是对于需要大量专家评分的模型测试，它大大降低人工成本和模型推理开销。

自适应性：为验证CAT能否根据模型能力自适应地选择适合的问题，本文用 Jaccard 相似度来衡量任意两个模型所作答的题目集之间的相似性：，其中和代表两个不同的题目集合/试卷。下图展示了CAT为各个LLM定制的试卷相似度。几乎所有 Jaccard 值都在 0.6 左右，表明至少 20-30% 的问题是不同的，这部分题目是实现测试自适应性的关键。其余 70-80% 的题目是相同的，对于评估所有LLM都有价值。这两部分共同组成了一份试卷，以高效评估模型。

评测可靠性：为了验证用于人类的CAT框架是否可以用于 LLM，本文研究了它的可靠性（SE 曲线[5]）。在CAT中，SE值通常是指能力估计的标准差，它反映了能力估计的精度：。较小的 SE 表示更精确且更可靠的估计[7]。下图显示了 ChatGPT（蓝色）和 100 名学生（黑色）测试过程中的 SE 变化：ChatGPT的SE曲线虽有波动，但是比真实学生更快、更容易收敛。

为探究ChatGPT与人类的相似性，本文在学生的测试过程中添加了猜测和失误因素：

(1) 猜测因素：即使被试没有掌握，仍有概率答猜对；

(2) 失误因素：即使掌握了该题，仍有小概率失误答错。

因此，Guess10% 表示正确性标签从错误变为正确的概率为10%，而 Slip10% 表示标签从正确变为错误的概率为10%。有趣的是，ChatGPT 的 SE 曲线非常接近 Guess=10%、Slip=30% 的学生（红色）。由此，本文推断 ChatGPT 更像一个“粗心的学生”，容易失误 (30%) 并且偶尔会去猜答案 (10%)。

五、诊断报告

本文选择了国内外较有代表性的6个instruction-tuned LLM 进行评测：ChatGPT、GPT4、谷歌Bard、百度文心一言(ERNIEBOT)、阿里通义千问(QianWen)、讯飞星火(Spark)。并将他们与高水平(High-Ability)、中等水平(Mid-Level)的人类学生进行比较。

数据集：本文选择学科知识、数学推理、编程三个领域为例对 LLM 进行细粒度评测，分别对应三个数据集：MOOC、MATH和CODIA。

学科知识水平（MOOC）：MOOC是目前最知名的在线学习平台之一，本数据集收集了1.5万大学生对计算机科学中不同知识概念（如人工智能、计算机系统等）的回答记录。
数学推理水平（MATH）：该数据通过智学网收集，其中包含了超过10万名高中生的数学考试数据.
编程水平（CODIA）：该数据由中国科学技术大学自主研发的在线编程平台CODIA(https://code.bdaa.pro/)。提供，其中包含了来自120所大学的大学生的编程提交数据。

5.1 ChatGPT VS 人类

本文以ChatGPT（蓝色）为例对其从上述三个方面进行高效诊断，并和高水平学生（红色）进行比较：

编程水平：尽管 ChatGPT 在官方报告和海量用户case中已经展示出其惊人的编程水平，但它并非全能，并不擅长所有类型的问题。本文使用 CODIA 平台对 ChatGPT 的编程能力中“动态编规划和贪心算法”、“搜索”、“数学问题”、“数据结构”、“树和图论”进行评估。ChatGPT 表现最佳的是“搜索”、“动态规划和贪心算法”。它在这些类型的问题上超过高水平大学生。然而，“数据结构”、“树和图论”是其编程能力上的短板。因此，下次让 ChatGPT 写代码时，可以避免这些类型；而如果你遇到关于动态规划的问题，则可以放心交给 ChatGPT。

图13 编程水平对比：ChatGPT(蓝) vs 学生(红)

学科知识水平：如下图，ChatGPT 在“算法”和“机器学习”这两个知识点上的能力水平显著高于高水平学生。然而，它在编程语言方面相对较弱，这似乎与人们对其的认知不太相符。为了探索原因，本文在下图右侧展示了一个关于编程语言的例子。这是一道非常基础的问题，但是 ChatGPT 却答错了，类似的例子在ChatGPT的考试中并不罕见。这说明它在掌握和理解编程语言的一些基础概念方面并不准确。而结合它在 CODIA 上惊人的编码水平（上图），本文有理由相信：ChatGPT更像是一个 "实干家"，而不是一个 "书呆子"。

image.png
图14 学科知识水平对比：ChatGPT（蓝） vs 学生（红）

数学推理水平：ChatGPT 的数学推理能力与人类的数学推理能力仍有相当大的差距：在“概率与统计”、“排列与组合”以及“几何”的问题的上尤其差；在“函数”、“方程和不等式”方面的表现相对好一些。因此，对于方程、函数这种有固定解题套路的基本计算问题，ChatGPT 是合格的。但面对现实场景中的推理问题[7]（例如，概率和统计、排列组合）显然还差得远。

图15 数学推理能力对比：ChatGPT（蓝色） vs 学生（红色） 5.2 LLM排名

本文在国内外6个有代表性的商业化LLM进行了CAT测试，并同时与不同水平的人类学生进行比较：

表1 不同 LLM 及不同水平学生能力诊断结果

数学推理：高水平高中生 > GPT4 ≈ 中等水平高中生 > 星火 > Bard > 文心 > ChatGPT > 千问编程：高水平大学生 > GPT4 > 中等水平大学生 > ChatGPT > 星火 > 文心 > 千问 > Bard 学科知识：GPT4 > Bard > ChatGPT ≈ 高水平大学生 > 中等水平大学生 > 星火 > 千问 > 文心

GPT4 在学科知识、数学推理、编程水平上明显优于其他 LLM。其学科知识水平几乎在每个知识点上都超过了高水平大学生（Top20%）。

每个 LLM 都有其自己的“特长”。例如编程中，GPT4 擅长“动态规划”和“数学问题”；ChatGPT 更擅长“搜索”问题；星火平均编程水平低于 GPT4/ChatGPT，但是用编程解决数学问题是它的强项。因此，尽管这些 LLM 没有公布它们预训练所用数据的配比和具体细节，本文有理由推断，ChatGPT/GPT4 可能在训练阶段使用了更多的编程相关数据，而星火则使用了更多的数学学科数据。

大模型要实现媲美人类的数学推理仍有很长的路要走。根据CAT诊断的结果，即使最强的GPT4，其推理能力也接近于中等水平的高中生。毕竟LLM的本质还是数据驱动的概率生成模型，并非像人类那样去思考和推理。因此，基于或模仿人类的认知结构[9]，或许是未来提升LLM推理能力的“捷径”。

六、总结

大语言模型正逐步改变人们日常的工作和生活方式。越来越多的人尝试探索 LLM 能力边界，让它们完成传统NLP时代难以想象的事情，如生成代码、制作PPT、作诗作曲等等。因此，如何科学有效地诊断并分析LLM的能力显得愈发重要。本文尝试引入原本用于人类的认知能力评估框架——计算机自适应测试，来对 LLM 进行评估。在相同的评估精度下，CAT需要的测试数据更少，极大地降低了对LLM 评估的人工成本和计算开销。

原论文由于中国科学技术大学计算机学院BASE(http://base.ustc.edu.cn/)课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学，包括：教育资源理解、认知诊断与学生建模、个性化教育服务等。本文希望CAT这一科学的评估范式可以促进 LLM 的研究与迭代，欢迎交流探讨！

参考文献

[1] Liu Q. Towards a New Generation of Cognitive Diagnosis[C]//IJCAI. 2021: 4961-4964.

[2] Zhuang Y, Liu Q, Huang Z, et al. A Robust Computerized Adaptive Testing Approach in Educational Question Retrieval[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 416-426.

[3] Sheldon M Ross. A first course in probability. Pearson, 2014.

[4] Zhuang Y, Liu Q, Huang Z, et al. Fully Adaptive Framework: Neural Computerized Adaptive Testing for Online Education[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(4): 4734-4742.

[5] C. Wang, D. J. Weiss, and Z. Shang. Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 2018.

[6] OpenAI. Gpt-4 technical report, 2023.

[7] Wim J Van der Linden and Cees AW Glas. Elements of adaptive testing, volume 10. Springer, 2010.

[8] Lin X, Huang Z, Zhao H, et al. Learning Relation-Enhanced Hierarchical Solver for Math Word Problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.

[9] Liu J, Huang Z, Lin X, et al. A cognitive solver with autonomously knowledge learning for reasoning mathematical answers[C]//2022 IEEE International Conference on Data Mining (ICDM). IEEE, 2022: 269-278.

作者：庄严来源：公众号【PaperWeekly】

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门投资基金、将门创新服务以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。