当大模型做高考数学选择题：讯飞星火成AI界“掌管多选的神”？|大模型|新课标|星火|高考数学

作者｜冰拿铁

编辑｜方奇

媒体｜AI大模型工场

随着高考季落下帷幕，又到了紧张刺激的“对答案环节”。不过，在今年，下场解题的除了各领域名师外，还多了一群被“赶鸭子上架”、全程陪跑的AI考生：国内头部大模型纷纷被送上高考考场，写作文、做数学题、用英语帮李明回信……成为2024高考考场最忙的崽。

其中，对语言能力强大的大模型来说，写作文无疑是拿手好戏。此前，湖南综合门户网站“红网”pick百度文心一言、阿里通义千问、腾讯混元、字节豆包、讯飞星火五位出战，写有关人工智能思考的湖南高考语文作文，即“用AI写AI”，并面向读者发起了“你认为哪家AI大模型的高考作文更好”的投票。

其中，讯飞星火、腾讯浑元、文心一言分别获得1411票、1263票、474票，成为公众眼里的“语文课代表”。

而看了三位逻辑清晰、善用修辞、思维开阔的高分作文，不禁让人感叹。你别说，这作文题还真专业对口！

而36氪旗下账号“智能涌现”则选出11位大模型考生写天津卷的“定义与自我定义”考题，并请GPT-4o为其盲选打分。结果可见，GPT-4o给自己和通义千问打出了55分的高分，讯飞星火和智谱清言紧随其后，拿到了54分高分。

那么，在“学好数理化，走遍天下都不怕”的当下，大模型们的数学功底如何？事实上，作文之外，对大模型进行数学功底的“深度摸底考”也十分有必要——不仅能够考察其数学基础知识的掌握，也能检验其逻辑推理能力、数据处理、解析能力、泛化能力、可靠性以及自动解答能力等多方面的能力，并推动其在模型算法和数据集方面作出优化。

此前，搜狐科技选取网络流传2024新课标I卷前8道单选题对十家大模型进行了比武，其中，文心一言、字节豆包、讯飞星火并列第一，正确率为63%。

这也让人十分好奇，大模型在做选择题时，其背后的思考、解析流程是怎样的，发挥稳定性又如何，有没有人类考生的“三分靠打拼，七分天注定”“不会的就选C”等运气成分？

如今，随着更多高考题目和参考答案纷纷出炉，AI大模型工场选取了不同难易程度、不同章节考点的高考数学题，pick此前多方面表现不错的文心一言、讯飞星火、通义千问、腾讯元宝四位考生出战，看看谁是“最懂数学的大模型”。

同时，为了防止大模型在论证题目中“一本正经地胡说八道”，考题主要以一目了然的选择题为主，并以公众号“韩老师带你学数学”中人类数学老师做出的标准答案+解析过程作为参照对比。

单选环节：

多轮对战，讯飞星火“稳坐钓鱼台”

1、“命题”基础考点，“送分环节”？

首先投喂大模型考生们新课标II卷的选择题第二题，这道题主要考察命题部分的掌握情况。众所周知，选择题前几题一般难度不大，网上的解析也言简意赅，那么，AI考生能否答对这道“送分题”？

很遗憾，这道题中只有通义千问和讯飞星火选择了正确答案“B”，而文心一言和腾讯元宝分别选择了“A”和“D”。

而透视各玩家的解题过程，可以看到，通义千问有一个学生时代的“标准好学生姿态”——先是规规矩矩地把题目抄撰了一遍，然后逐项分析，写满两页草稿纸，最终得出了正确答案。

而同样答对了题目的讯飞星火则“人狠话不多”，简明扼要地指出了破题关键所在，高冷学霸即视感。

文心一言则错在了第一步：在正确答案中，命题P为假命题，然而文心一言在第一步做出了“命题P为真命题”的错误，因此虽然后面也有环环相扣的缜密分析，但很遗憾，由于地基不稳，最终得出了错误答案。

而腾讯元宝虽然成功判断了“命题P为假命题”，但却在第二步被蒙蔽了双眼，将命题q归为假命题，最终得出了错误答案。

2、极差、中位数、平均值……图表识别环节，谁是“多模态王者”？

那么，接下来，送上这道带有图表的新课标II卷的选择题第四题，在考察极差等考点的同时，顺便检查大模型玩家的多模态、识别图表能力。

而在这一环节，文心一言和讯飞星火选择了正确答案“C”，通义千问选择了“D”，腾讯元宝选择了“B”。

透视解题过程，可以看到，文心一言对选项“逐个击破”，并正确得出了答案。

而讯飞星火则给出了解题思路“需要计算出这100块稻田的总产量，然后计算出中位数、众数、极差和平均数”，并顺利通关。

而腾讯元宝则在这道题上由于读错了题，产生误判。在选项B的判断中，虽然得出了“比例没有超过80%”的正确答案，但却仍然选择了“所占比例超过80%”这一错误选项——明知山有虎，偏向虎山行，喜提AI界“最马虎考生”。

而通义千问虽然中位数、频数等考点掌握得不错，但极差、平均值功底稍显薄弱，最终导致误判。

好看的皮囊千篇一律，有趣的灵魂暴虐函数。考察过了命题、中位数章节，接下来，难度进阶，一道新课标I卷的函数题送上。

3、函数题，大模型“易如反掌”？

可喜可贺的是，这道题四位考生都做对了，看来函数领域算是大模型的舒适区？

而透视解题过程，通义千问和讯飞星火走的是言简意赅、直指要害的“高冷学霸风”。

而腾讯元宝和文心一言则更细致入微，恨不得掰开揉碎，把答案喂到读者嘴里。

那么，接下来，在更为复杂的多选题“加时赛”环节，大模型考生的表现如何？

“多选加时赛”环节：

整体能力仍待提高，讯飞星火“一枝独秀”

既然是终极加时赛，一不做二不休，干脆让大模型们做一道看起来最难、解析过程最复杂的多选题，即新课标I卷选择题第11题。

很遗憾，在这道题上，只有讯飞星火给出了“ABD”的全面正确回答，而腾讯元宝给出了“B、D”的回答，漏选了A，通义千问、文心一言、的答案则“局部正确”，只给出了一个选项作答，最终与正确答案失之交臂。

复盘解析过程，作为多选环节的“一枝独秀”，讯飞星火采取挨个选项击破的思路，逻辑较为缜密，在加时赛环节中能做到不漏判，非常不容易。

而腾讯元宝给出了“B、D”的回答，漏选了“A”。

通义千问则视为单选题，选择了“D”，误判了“A”“B”。

文心一言选择了“A”，和通义千问正好互补。

最后，多选数学题目往往需要较高的推理能力，包括理解题目中的条件、逻辑关系和隐含信息。大模型虽然在某些任务上表现出色，但在逻辑推理方面仍然存在局限。

事实上，数学作为人工智能和机器学习领域的基础和核心，是大模型尤其是深度学习模型和神经网络等复杂模型的“必修课”，无论是设计还是优化，都需要深厚的数学功底。而通过不断提升数学能力，大模型可以进一步理解线性代数、微积分、概率论和统计学等数学概念和方法，有助于提高其建模、分析，以及理解不同知识点之间的关联和联系，进而提高其泛化能力，即处理不同领域问题的能力。

基于此，在多项测评中均表现优异，并在多选环节“同九义，汝何秀”的讯飞星火也成功吸引了行业的注意。值得一提的是，据复旦NLP实验室LLMEVAL团队近日对2024高考数学真题的系列评测，在更符合人类实际使用大模型时所采用的Latex格式下，讯飞星火同样能力超群。

在高考数学新课标I卷、新课标II卷的14道题测试中，讯飞星火均名列前茅，其中，其新课标II卷的测评分数更是遥遥领先。

这也让外界看到了大模型的数学潜力，打开了更多想象空间：毕竟无论是对人类考生还是大模型玩家来说，数学都是必须啃的一块硬骨头——期待有一天，可以在数学竞技场上，看到大模型玩家和“韦神”们同场pk的身影。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian ，注明真实身份。

数据支持天眼查，大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field