“宇宙这本书是用数学语言写成的,除非你首先学懂了它的语言,否则这本书是无法读懂的。”如果万物皆数,这种强化学习带来的推理能力的提升,未来将会泛化到更多日常任务上。

近日,月之暗面Kimi发布新一代强化模型k0-math,也是国内首个对标OpenAI o1模型的强化推理大模型,发布时间就在o1-preview推出的2个多月后。

从今天起,该数学推理模型已经上线网页版,用户可以拿数学难题去考验AI的解题能力。Kimi相关负责人表示,该模型在做了大量的数学思维训练之后,不仅会做数学题,还具备了极强的综合逻辑思维能力,面对非数学问题,也可以给出自己的思考。

Kimi不只学会了数学

k0-math模型采用了创新的强化学习和思维链(CoT)技术,这让Kimi学会了数学,并且在美国竞赛题、中国⾼考、考研等场景下可与o1模型媲美。

所谓思维链(CoT),就是模拟人脑,把一个复杂的问题拆解为若干子问题,让大模型拥有更加接近人类的思考过程。

这样一来,k0-math可以解决高难度的数学问题,以及历史⼤模型极难完成的⼀些边界问题。

月之暗面称,在业界最常使用的数学能力基准测试MATH中,k0-math模型得分为93.8,o1-mini和o1-preview则分别为90分和的85.5分。

打开网易新闻 查看精彩图片

先用一道2024年高考数学题考验Kimi,题目为:若曲线y=e^x+x在点(0,1)处的切线也是曲线y=ln⁡(x+1)+a的切线,则a=?

经过8步的分析和验证,Kimi给出了正确答案:a的值为ln2。

打开网易新闻 查看精彩图片

高考数学题没有难住Kimi数学版。既然官方说Kimi数学版不只懂数学,我们也试试其他问题。先来一个龟兔赛跑悖论问题,思考过程果然有趣:问题似乎暗示了一个无限循环,即兔子永远也追不上乌龟。但实际上,这个悖论源于对时间的无限分割,导致了无限的追赶步骤。然而,在现实中,时间并不是无限可分的,而是连续的。因此,兔子和乌龟之间的距离会随着时间的推移而逐渐缩小,最终兔子会追上乌龟。

打开网易新闻 查看精彩图片

在被问到外星人是否存在时,Kimi从目前的证据、对生命的理解和概率这三个角度给出了它的分析,展示出了人类思考时的逻辑性。

打开网易新闻 查看精彩图片

而有的回答甚至具有了理性之外的思辨。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

如果问个更好玩的呢?《水浒传》里哪位好汉的武力值最强?Kimi首先想到的是卢俊义,还将卢俊义与林冲、武松、关胜进行了比较,综合考虑了他们的个人武艺、战斗经验、武器技能以及在梁山上的地位,最后判断“卢俊义无疑是武力值最强的代表之一”。

打开网易新闻 查看精彩图片

但是,对于非常简单的数学问题,比如问“1+1等于几”时,它回答说:“这看似简单,但还是不可以掉以轻心,让我们一步步来”。同时,对于一些高考难题和国际数学奥林匹克竞赛(IMO)题目,模型还不能保证100%做对。现阶段,数学推理模型还存在这些局限性,仍然有待继续迭代和突破。

AI助手初现两强格局

自2022年冬天ChatGPT掀起生成式AI狂潮以来,众多企业纷纷下场,国内AI大模型赛道一度十分拥挤。如今,经过一年多时间的角逐,toC应用端的格局趋于稳定,已形成2+N的格局——综合用户规模、增长、活跃、留存等多项指标,Kimi在创业公司中脱颖而出,而豆包则是巨头公司中的领先者,且逐渐拉开了与后面玩家的差距。

从数据看上,在工作场景为主的PC端,根据 Similarweb的数据,10月份Kimi网站访问量2800多万,豆包 1600 多万。在手机APP端,根据量子位智库统计的数据,豆包和Kimi今年新增下载量均超过5000万。比其他同类产品高出一大截。

据Kimi创始人杨植麟介绍,到今年10月,Kimi在PC网页、手机App、小程序等全平台的月度活跃用户已超过3600万,而且数据仍在持续增长。

拥有着字节巨大流量和娱乐基因的豆包擅长聊天,而Kimi更像一个踏实干活儿的理性助手。

在杨植麟看来,AI的思考能力和交互水平都很重要,但是思考能力更加本质,是当下大模型需要解决的第一要务,而数学最能锻炼模型的思考能力。作为国内领先的大模型公司之一,Kimi已率先掌握了基于强化学习、合成数据和思维链的新技术,k0-math模型的一大价值正在于实现技术上的迭代和验证。

目前,k0-math数学模型和升级后的Kimi探索版已陆续上线网页版,后续也将上线手机客户端。