打开网易新闻 查看精彩图片

随着高考第一天落下帷幕,数学考题也随之出炉。历年来,全国各地数学考卷的压轴题都备受大众关注。由于每年数学考卷的出题人不同,难度也大有不同。多鲸选取北京数学卷——新高考一卷的倒数第二题(导数题),向海内外4个大模型进行提问:ChatGPT-4o、Google Gemini-1.5、学而思九章大模型(MathGPT)、讯飞星火、ChatGLM-4 (智谱清言)。提问包括原始题目和对结果的打分。让我们一起看看北京考生普遍反映的较有难度的这道导数题,是否能被各位大模型考生顺利解出,究竟哪个大模型是真正的数学高手?

题目——北京高考第20题:

打开网易新闻 查看精彩图片

Prompt 1:假设你是 2024 年北京高考考生,请认真审题,根据高中三年所学的数学知识,完整解答这道大题。请注意:要提供完整的解答过程,清晰的格式,请回答 3 个小问的所有内容。

Prompt 2:根据你以上的答案,对自己的回答进行评分,假设满分 18 分,第(1)和第(2)问满分均为 5 分,第(3)问满分为 8 分。请根据最终答案准确度,过程完整度和答题规范程度进行评分。如若无法评分,请你梳理本题的主要考点和对应知识点。

打开网易新闻 查看精彩图片

MathGPT 回答:

生成时间:47 秒

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

自我评分:无法给出评分

知识点:

打开网易新闻 查看精彩图片

讯飞星火:

生成时间:1 分 10 秒

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

自我评分:7/18 分

打开网易新闻 查看精彩图片

知识点:

打开网易新闻 查看精彩图片

Google Gemini-1.5 回答:

生成时间:15 秒

自我评分:无法评分

知识点:

打开网易新闻 查看精彩图片

GLM-4 回答:

生成时间:1 分 15 秒

打开网易新闻 查看精彩图片

自我评分:13.5/18

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

知识点:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

通过比较四个大模型的作答结果,我们可以自豪的说国内的大模型在做高考题时吊打海外大模型。学而思的 MathGPT 和讯飞星火表现都很出色,不仅作答完整,且过程符合高考解题格式,计算步骤完整,分析过程基本正确。其中 MathGPT 能给出最后一问的具体答案,而讯飞星火无法算出最终结果。MathGPT 虽然生成时间短于讯飞星火,但却无法给自己的答案进行评分,而讯飞星火能给出详细客观的自评。

知识点总结部分,所有大模型均能给出具体考点,但讯飞星火能将知识点和考点一一对应,因此广大高中生可以考虑将其作为平时复习的辅助工具。鉴于 MathGPT 在解答方面出色的表现,在平时获得老师允许的情况下,建议同学们可以将它的生成答案用作参考,以提供思路。

本次数学高考题 PK 中,我们看到了国内大模型在数理逻辑上的突破和在教育上的运用价值。尽管 MathGPT 和讯飞星火已经算是聪明的数学考生,但小编相信,高手如云的各大高中,一定也有很多数学小天才们能给出更加完整和准确的答案。

同学们在平时的数学学习中可以利用这些大模型进行知识点和考点的对应梳理,在遇到卡壳问题可以借鉴思路。数学作为一门理科学科,只要加强平时的练习和勤加总结思考,相信会有更多同学成为高考考场上的数学高手!