国产AI，两强初现|kimi|卢俊义|推理|数学题|豆包

“宇宙这本书是用数学语言写成的，除非你首先学懂了它的语言，否则这本书是无法读懂的。”如果万物皆数，这种强化学习带来的推理能力的提升，未来将会泛化到更多日常任务上。

近日，月之暗面Kimi发布新一代强化模型k0-math，也是国内首个对标OpenAI o1模型的强化推理大模型，发布时间就在o1-preview推出的2个多月后。

从今天起，该数学推理模型已经上线网页版，用户可以拿数学难题去考验AI的解题能力。Kimi相关负责人表示，该模型在做了大量的数学思维训练之后，不仅会做数学题，还具备了极强的综合逻辑思维能力，面对非数学问题，也可以给出自己的思考。

Kimi不只学会了数学

k0-math模型采用了创新的强化学习和思维链（CoT）技术，这让Kimi学会了数学，并且在美国竞赛题、中国⾼考、考研等场景下可与o1模型媲美。

所谓思维链（CoT），就是模拟人脑，把一个复杂的问题拆解为若干子问题，让大模型拥有更加接近人类的思考过程。

这样一来，k0-math可以解决高难度的数学问题，以及历史⼤模型极难完成的⼀些边界问题。

月之暗面称，在业界最常使用的数学能力基准测试MATH中，k0-math模型得分为93.8，o1-mini和o1-preview则分别为90分和的85.5分。

先用一道2024年高考数学题考验Kimi，题目为：若曲线y=e^x+x在点(0,1)处的切线也是曲线y=ln⁡(x+1)+a的切线,则a=?

经过8步的分析和验证，Kimi给出了正确答案：a的值为ln2。

高考数学题没有难住Kimi数学版。既然官方说Kimi数学版不只懂数学，我们也试试其他问题。先来一个龟兔赛跑悖论问题，思考过程果然有趣：问题似乎暗示了一个无限循环，即兔子永远也追不上乌龟。但实际上，这个悖论源于对时间的无限分割，导致了无限的追赶步骤。然而，在现实中，时间并不是无限可分的，而是连续的。因此，兔子和乌龟之间的距离会随着时间的推移而逐渐缩小，最终兔子会追上乌龟。

在被问到外星人是否存在时，Kimi从目前的证据、对生命的理解和概率这三个角度给出了它的分析，展示出了人类思考时的逻辑性。

而有的回答甚至具有了理性之外的思辨。

如果问个更好玩的呢？《水浒传》里哪位好汉的武力值最强？Kimi首先想到的是卢俊义，还将卢俊义与林冲、武松、关胜进行了比较，综合考虑了他们的个人武艺、战斗经验、武器技能以及在梁山上的地位，最后判断“卢俊义无疑是武力值最强的代表之一”。

但是，对于非常简单的数学问题，比如问“1+1等于几”时，它回答说：“这看似简单，但还是不可以掉以轻心，让我们一步步来”。同时，对于一些高考难题和国际数学奥林匹克竞赛（IMO）题目，模型还不能保证100%做对。现阶段，数学推理模型还存在这些局限性，仍然有待继续迭代和突破。

AI助手初现两强格局

自2022年冬天ChatGPT掀起生成式AI狂潮以来，众多企业纷纷下场，国内AI大模型赛道一度十分拥挤。如今，经过一年多时间的角逐，toC应用端的格局趋于稳定，已形成2+N的格局——综合用户规模、增长、活跃、留存等多项指标，Kimi在创业公司中脱颖而出，而豆包则是巨头公司中的领先者，且逐渐拉开了与后面玩家的差距。

从数据看上，在工作场景为主的PC端，根据 Similarweb的数据，10月份Kimi网站访问量2800多万，豆包 1600 多万。在手机APP端，根据量子位智库统计的数据，豆包和Kimi今年新增下载量均超过5000万。比其他同类产品高出一大截。

据Kimi创始人杨植麟介绍，到今年10月，Kimi在PC网页、手机App、小程序等全平台的月度活跃用户已超过3600万，而且数据仍在持续增长。

拥有着字节巨大流量和娱乐基因的豆包擅长聊天，而Kimi更像一个踏实干活儿的理性助手。

在杨植麟看来，AI的思考能力和交互水平都很重要，但是思考能力更加本质，是当下大模型需要解决的第一要务，而数学最能锻炼模型的思考能力。作为国内领先的大模型公司之一，Kimi已率先掌握了基于强化学习、合成数据和思维链的新技术，k0-math模型的一大价值正在于实现技术上的迭代和验证。

目前，k0-math数学模型和升级后的Kimi探索版已陆续上线网页版，后续也将上线手机客户端。