打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者|冰拿铁

编辑|方奇

媒体|AI大模型工场

随着高考季落下帷幕,又到了紧张刺激的“对答案环节”。不过,在今年,下场解题的除了各领域名师外,还多了一群被“赶鸭子上架”、全程陪跑的AI考生:国内头部大模型纷纷被送上高考考场,写作文、做数学题、用英语帮李明回信……成为2024高考考场最忙的崽。

其中,对语言能力强大的大模型来说,写作文无疑是拿手好戏。此前,湖南综合门户网站“红网”pick百度文心一言、阿里通义千问、腾讯混元、字节豆包、讯飞星火五位出战,写有关人工智能思考的湖南高考语文作文,即“用AI写AI”,并面向读者发起了“你认为哪家AI大模型的高考作文更好”的投票。

其中,讯飞星火、腾讯浑元、文心一言分别获得1411票、1263票、474票,成为公众眼里的“语文课代表”。

打开网易新闻 查看精彩图片

而看了三位逻辑清晰、善用修辞、思维开阔的高分作文,不禁让人感叹。你别说,这作文题还真专业对口!

打开网易新闻 查看精彩图片

而36氪旗下账号“智能涌现”则选出11位大模型考生写天津卷的“定义与自我定义”考题,并请GPT-4o为其盲选打分。结果可见,GPT-4o给自己和通义千问打出了55分的高分,讯飞星火和智谱清言紧随其后,拿到了54分高分。

打开网易新闻 查看精彩图片

那么,在“学好数理化,走遍天下都不怕”的当下,大模型们的数学功底如何?事实上,作文之外,对大模型进行数学功底的“深度摸底考”也十分有必要——不仅能够考察其数学基础知识的掌握,也能检验其逻辑推理能力、数据处理、解析能力、泛化能力、可靠性以及自动解答能力等多方面的能力,并推动其在模型算法和数据集方面作出优化。

此前,搜狐科技选取网络流传2024新课标I卷前8道单选题对十家大模型进行了比武,其中,文心一言、字节豆包、讯飞星火并列第一,正确率为63%。

打开网易新闻 查看精彩图片

这也让人十分好奇,大模型在做选择题时,其背后的思考、解析流程是怎样的,发挥稳定性又如何,有没有人类考生的“三分靠打拼,七分天注定”“不会的就选C”等运气成分?

如今,随着更多高考题目和参考答案纷纷出炉,AI大模型工场选取了不同难易程度、不同章节考点的高考数学题,pick此前多方面表现不错的文心一言、讯飞星火、通义千问、腾讯元宝四位考生出战,看看谁是“最懂数学的大模型”。

同时,为了防止大模型在论证题目中“一本正经地胡说八道”,考题主要以一目了然的选择题为主,并以公众号“韩老师带你学数学”中人类数学老师做出的标准答案+解析过程作为参照对比。

单选环节:

多轮对战,讯飞星火“稳坐钓鱼台”

1、“命题”基础考点,“送分环节”?

首先投喂大模型考生们新课标II卷的选择题第二题,这道题主要考察命题部分的掌握情况。众所周知,选择题前几题一般难度不大,网上的解析也言简意赅,那么,AI考生能否答对这道“送分题”?

打开网易新闻 查看精彩图片

很遗憾,这道题中只有通义千问和讯飞星火选择了正确答案“B”,而文心一言和腾讯元宝分别选择了“A”和“D”。

而透视各玩家的解题过程,可以看到,通义千问有一个学生时代的“标准好学生姿态”——先是规规矩矩地把题目抄撰了一遍,然后逐项分析,写满两页草稿纸,最终得出了正确答案。

打开网易新闻 查看精彩图片

而同样答对了题目的讯飞星火则“人狠话不多”,简明扼要地指出了破题关键所在,高冷学霸即视感。

打开网易新闻 查看精彩图片

文心一言则错在了第一步:在正确答案中,命题P为假命题,然而文心一言在第一步做出了“命题P为真命题”的错误,因此虽然后面也有环环相扣的缜密分析,但很遗憾,由于地基不稳,最终得出了错误答案。

打开网易新闻 查看精彩图片

而腾讯元宝虽然成功判断了“命题P为假命题”,但却在第二步被蒙蔽了双眼,将命题q归为假命题,最终得出了错误答案。

打开网易新闻 查看精彩图片

2、极差、中位数、平均值……图表识别环节,谁是“多模态王者”?

那么,接下来,送上这道带有图表的新课标II卷的选择题第四题,在考察极差等考点的同时,顺便检查大模型玩家的多模态、识别图表能力。

打开网易新闻 查看精彩图片

而在这一环节,文心一言和讯飞星火选择了正确答案“C”,通义千问选择了“D”,腾讯元宝选择了“B”。

透视解题过程,可以看到,文心一言对选项“逐个击破”,并正确得出了答案。

打开网易新闻 查看精彩图片

而讯飞星火则给出了解题思路“需要计算出这100块稻田的总产量,然后计算出中位数、众数、极差和平均数”,并顺利通关。

打开网易新闻 查看精彩图片

而腾讯元宝则在这道题上由于读错了题,产生误判。在选项B的判断中,虽然得出了“比例没有超过80%”的正确答案,但却仍然选择了“所占比例超过80%”这一错误选项——明知山有虎,偏向虎山行,喜提AI界“最马虎考生”。

打开网易新闻 查看精彩图片

而通义千问虽然中位数、频数等考点掌握得不错,但极差、平均值功底稍显薄弱,最终导致误判。

打开网易新闻 查看精彩图片

好看的皮囊千篇一律,有趣的灵魂暴虐函数。考察过了命题、中位数章节,接下来,难度进阶,一道新课标I卷的函数题送上。

打开网易新闻 查看精彩图片

3、函数题,大模型“易如反掌”?

可喜可贺的是,这道题四位考生都做对了,看来函数领域算是大模型的舒适区?

而透视解题过程,通义千问和讯飞星火走的是言简意赅、直指要害的“高冷学霸风”。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

而腾讯元宝和文心一言则更细致入微,恨不得掰开揉碎,把答案喂到读者嘴里。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

那么,接下来,在更为复杂的多选题“加时赛”环节,大模型考生的表现如何?

“多选加时赛”环节:

整体能力仍待提高,讯飞星火“一枝独秀”

既然是终极加时赛,一不做二不休,干脆让大模型们做一道看起来最难、解析过程最复杂的多选题,即新课标I卷选择题第11题。

打开网易新闻 查看精彩图片

很遗憾,在这道题上,只有讯飞星火给出了“ABD”的全面正确回答,而腾讯元宝给出了“B、D”的回答,漏选了A,通义千问、文心一言、的答案则“局部正确”,只给出了一个选项作答,最终与正确答案失之交臂。

复盘解析过程,作为多选环节的“一枝独秀”,讯飞星火采取挨个选项击破的思路,逻辑较为缜密,在加时赛环节中能做到不漏判,非常不容易。

打开网易新闻 查看精彩图片

而腾讯元宝给出了“B、D”的回答,漏选了“A”。

打开网易新闻 查看精彩图片

通义千问则视为单选题,选择了“D”,误判了“A”“B”。

打开网易新闻 查看精彩图片

文心一言选择了“A”,和通义千问正好互补。

打开网易新闻 查看精彩图片

最后,多选数学题目往往需要较高的推理能力,包括理解题目中的条件、逻辑关系和隐含信息。大模型虽然在某些任务上表现出色,但在逻辑推理方面仍然存在局限。

事实上,数学作为人工智能和机器学习领域的基础和核心,是大模型尤其是深度学习模型和神经网络等复杂模型的“必修课”,无论是设计还是优化,都需要深厚的数学功底。而通过不断提升数学能力,大模型可以进一步理解线性代数、微积分、概率论和统计学等数学概念和方法,有助于提高其建模、分析,以及理解不同知识点之间的关联和联系,进而提高其泛化能力,即处理不同领域问题的能力。

基于此,在多项测评中均表现优异,并在多选环节“同九义,汝何秀”的讯飞星火也成功吸引了行业的注意。值得一提的是,据复旦NLP实验室LLMEVAL团队近日对2024高考数学真题的系列评测,在更符合人类实际使用大模型时所采用的Latex格式下,讯飞星火同样能力超群。

在高考数学新课标I卷、新课标II卷的14道题测试中,讯飞星火均名列前茅,其中,其新课标II卷的测评分数更是遥遥领先。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这也让外界看到了大模型的数学潜力,打开了更多想象空间:毕竟无论是对人类考生还是大模型玩家来说,数学都是必须啃的一块硬骨头——期待有一天,可以在数学竞技场上,看到大模型玩家和“韦神”们同场pk的身影。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian ,注明真实身份。

数据支持天眼查,大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

打开网易新闻 查看精彩图片

大模型应用创业者,你怎么看?

■ 百度文心一言,阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■ 网易,金山办公大模型 ▍ 更多行业大模型案例

上次介绍诗词大赏、寻粽之旅、龙舟大赛......第一届AI端午大奖,谁摘桂冠?

打开网易新闻 查看精彩图片

本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

欢迎提供新的大模型商业化落地思路