打开网易新闻 查看精彩图片

当大语言模型在文本理解和内容生成方面的能力越发强大,下一步该往哪儿走?

从目前看,除了多模态,主流大模型发力最多的,就属数学了。

据不完全统计,在近期上新的大模型阵容中,包括谷歌、OpenAI、阿里、字节跳动、智谱AI、月之暗面等在内都有发布自己的数学模型或强化新模型在数学推理方面的能力。

模型数学能力的竞技也从K12数学教育题延伸到了AIME、IMO等国际数学赛事,甚至以FrontierMath为代表的博士级别的数学能力的比拼。

为什么数学领域会成为主流大模型厂商实力PK的新舞台?目前国内外大模型的数学推理能力如何?未来又将往哪些方面发力?

如果你也好奇,下面不如跟着司普科技1号解说员小司一起来看看。

数学为什么成为大模型新的竞技舞台?

数学为什么成为大模型新的竞技舞台?

虽然大模型有千万种发展可能,但眼下国内外纷纷聚焦数学领域,个人觉得有以下原因在推动:

1)数学推理是大语言模型与生俱来的痛。

自诞生以来,大模型一直被人吐槽创意不足,逻辑能力差,全靠语义分析和上下文理解来预测接下来的生成。目前大模型在创意这块的潜能已经被极大激发(比如写诗词、小说甚至作词、作曲、做MV),但逻辑推理这块的能力,靠什么证明呢?数学,无疑是一个绝佳的切入口。

和单纯的文本预测和语言建模不同,数学需要经完整、严谨的思考和逻辑推理后,给出准确的答案,而且越复杂高级的数学推理,越能体现知识水平和能力层级的差异。

当这方面的能力得以强化,不仅能改变人们对其的刻板印象,媲美专家的数学水准,还能进一步加速强人工智能的实现。所以在这点上,业内显得相当有默契。

2)数学能力基准测试的竞技。

细心的朋友可能也发现:大部分基础大模型在总体任务(GeneralTask)上的评分(比如MMLU、BBH、HellaSwag、WinoGrande)早就在冲刺90分甚至满分,可数学或科学类任务(Mathematics & Science Tasks)的基准分仍徘徊在及格线,甚至在及格线以下。

就像优等生不希望自己“挂科”,越优秀的大模型也越想补足这方面的短板。这推动着主流的大模型厂商近年来不断强化数学和科技类的任务推理,以保持在行业数学能力基准测试中的先进水平。

从基础数学能力的GSM-8K、MGSM(多语种版GSM-8K)到LSAT、MBE、AMC、GRE类专业考试,再到美国数学邀请赛(AIME)、国际数学奥林匹克(IMO)等国际性数学竞赛,以及验证黎曼猜想等世界性数学经典难题,大模型在数学推理方面的能力PK方法层出不穷。做数学题,也因此被笑称是“最好的刷榜和炫技”方式。

但在持续的竞技和进化中,大模型在数学推理方面的能力,的确也从“小学生”到“本科生”甚至向“数理博士生水平”快速对齐,实现模型性能和推理能力的全面提升。

3)思维链CoT等技术的深度应用推动数学推理进阶。

如果说早期的大模型数学推理能力主要来自预训练数据集和内置计算器,利用“题海战术”和工具插件掌握一定的数学任务处理能力。

眼下,随着思维链CoT、工具集成推理(TIR)等技术的不断成熟和深度应用,大模型自身开始具备专家级的思维能力,也为处理复杂、高层次的数学推理打下了基础。

4)大模型商业化压力的推动。

虽然大模型赛道仍处于发展上升期,但有些商业化压力已经从末端或多或少传导过来。在这样的背景下,不管是未雨绸缪,提升模型各方面推理能力,还是为满足用户端复杂的业务逻辑和公式配置需求,强化数学推理,都显得很有必要。

比如数学模型的推出,对于赢得金融、财税、教育培训、科研类用户,就能助益不少。而多语种数学推理能力的强化,则能直接为全球化的应用铺路。

国内外大模型数学推理哪家强?

国内外大模型数学推理哪家强?

相比一般任务模型性能的缓慢提升,目前国内外主流大模型厂商在数学推理方面你追我赶,整体性能也呈现出质的飞跃。

比如2024年7月谷歌DeepMind团队发布的AlphaProof和AlphaGeometry 2数学模型,在国际数学奥林匹克竞赛中发挥银牌选手水准,成绩已经相当抢眼(得28分,满分42分)。

2个月后,OpenAI发布的新模型o1已经能在该项比赛中获得83%的资格评分,达到金牌选手水平。

到今年12月o3模型发布,不仅数学能力再度进阶,博士级科学问答的基准准确率也能达到87.7%,FrontierMath 测试正确率更是突破至25%(其他头部模型不到2%),打破了业内很多科学家的预估。

国内方面,阿里的Qwen2.5-Math、字节跳动的豆包大模型、智谱的MathGLM、月之暗面的k0-math在数学推理方面的性能也是突飞猛进,目前在MATH、中考、高考、考研等数学基准测试、中英文数学解题等领域也已在对标或赶超o1。

打开网易新闻 查看精彩图片

不难预见,未来通用大模型在数学及科学类任务的处理上,将显得更加得心应手。

值得一提的是:大模型在数据推理方面的性能提升,依然存在一定的偏向性。

比如Anthropic旗下的Claude 3.5大模型在专业研究生类的数学推理和考试测评上显得更有优势,有些数学模型则侧重于科学或医学等特定学科的数学推理,而非全领域。

此外,有的模型在应对复杂的数学推理可能驾轻就熟,但遇上简单的数学题可能过度思考;有些擅长K12基础教育数学,有的则擅长奥数等,可谓各有千秋。

但总的来说,大模型在数学推理能力上的强化,成了模型性能提升的直观体现,也为更广泛的商业落地和实现真正意义上的AGI创造了条件。

备注:本文原创,首发司普科技,有参考澎湃新闻、新智元、每日经济新闻、上游新闻等,仅做分享。