Kimi的数学模型来了，这次甚至能挑战高考。|kimi|math|伽利略|宇宙|数学模型|逻辑推理

消停了一阵子之后，国内又有大模型公司打榜 OpenAI 了。

这不， Kimi 最近推了个数学模型 k0-math ，号称数学能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ，中高考、考研还有入门竞赛题都能跟 o1 过过招。

该说不说， AI 模型开始 “ 炒作 ” 起数学能力，这事儿还挺稀奇，毕竟 AI 的数学能力拉胯也不是一天两天了，连 strawberry 里有几个 r 都一直数不清。。。

就连 OpenAI 的 o1 发布时，也没有直说自己的数学多么多么厉害，只是点了一下推理能力罢了。

所以原本以长文本出圈儿的 Kimi ，这回突然卷起了数学，世超确实很好奇，好奇这个 k0-math 到底啥水平啊？

而世超在哥们儿的帮助下，也提前体验了一阵子，今天就借着 Kimi 数学版（基于 k0-math 模型）全量开放了，带着大家瞧瞧这个数学模型有多少斤两。

目前， Kimi 数学版只能在网页版上用，入口倒是跟之前的普通版和探索版没啥区别，但有一点，Kimi 数学版只支持一轮对话。

像世超一上来，就直戳 Kimi 痛处翻了波旧账，问它 “13.11% 和 13.8% ，哪个更大？ ” 。（之前 Kimi 在这上面翻过车，说 13.11 的整数部分和小数部分都大于 13.8 。。）

这次倒是学机灵了，而且很简单的比数值大小， Kimi 数学版都用上了 “ 为了进一步确认 ”“ 为了确保万无一失 ”“ 经过多种方法的验证 ” 这些话术， kuku 输出了二三十行。

只不过当世超想再次追问的时候，出来的就不是 k0-math 模型了。

当然，这只是个小插曲，既然官方都已经把 k0-math 的实力挑明，那咱也不客气了。

直接上今年高考新课标 1 卷的数学题：已知 cos ( a+ β) =m ， tanatan β =2 ，则 cos ( a- β) = ？

虽说解题过程有些波折，但总算是没把最后 -3m 的答案弄错。

这个问题我同时也问了智谱清言和 ChatGPT ，答案倒是没出入，但区别于一个步骤一个步骤列出来， Kimi 数学版给我一种，它真的在模仿人类思考的过程。

模型在推导的过程中，怀疑过自己的思路可能是错误的，并且对此进行了验证。

但下面这道概率题， Kimi 数学版就没那么好运了。

标准答案是 1/2 ，只有 ChatGPT 答对了。

世超看了眼 Kimi 数学版的推导过程， 24 种可能发生的情况它都列举出来了，而且每一种情况谁输谁赢也盘得清清楚楚，甚至最后还检查了一遍。

但最大的问题出在，它把甲的总得分≥ 2 的次数，漏数了一个。。。实属可惜。

咱再找一道 AMC 数学竞赛的题目，给 Kimi 数学版试试。

一个集合由 6 个（不是不同的）正整数组成：1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值（算术平均值）等于集合中的一个值。X 的所有可能值之和是多少？

这次世超还把豆包也加进来了，同一道题，四个模型只有智谱清言的算错了。（正确答案是36）

还有个小插曲，本来世超想再给 Kimi 试一道竞赛题，结果它直接反过来质疑我。。试了好几次都是这么个回答，不知道是系统的 bug ，还是它压根就不会儿这题，干脆装死。

有一说一，好几道数学题试下来， Kimi 数学版确实给了我不少惊喜，特别是解题过程中展现出来的思考、推理的能力，又刷新了一波咱对 AI 模型数学能力的认知。

只可惜几何题一如既往的菜，只是一道初中级别的几何选择题，给 Kimi 数学版的 CPU 都快干烧了，结果还是错的答案。

至于为啥 Kimi 的 k0-math 模型能有这么大的突破，前段时间世超参加了一场月之暗面的媒体会，月之暗面的创始人杨植麟就告诉世超， k0-math 的成功很大概率要归功于一个叫做 COT （ Chain of Thought ）思维链的技术。

太专业的术语咱也不在这拽了，大伙儿可以把这个 COT 理解为， AI 模型模仿人类的大脑进行逻辑推理，把复杂的任务拆解之后，再一步步地解决。把这个技术运用到模型里，模型就能够通过 “ 思考 ” 来完成任务并提高正确率。

而为啥先把这东西用在了一个数学模型上，杨植麟直接引用了伽利略的名言 “ 宇宙是由数学这门语言书写而成的 ” 。

总之，就是希望先从数学问题入手，再将数学的思维泛化，从而去理解整个世界。

当然，并不是说模型一旦用上了思维链就能得到正确的答案，但这个方式，目前确实可以提高模型对复杂任务的推理能力。

再举个例子，咱让 Kimi 数学版统计 “ chaping debug the world ” 里，有几个字母 “e” 。

先分别把 “ chaping ”“ debug ”“ the ”“ world ” 单独拎出来，再挨个字母一个个查，方法虽然笨，但至少不会出错。

就这么说吧，这道简单的数数题，世超试了一下，只有 Claude 和 Kimi 数学版数对了。

包括在 “ 我有一块 1 米长的面包，每天吃一半，需要几天才能把这块面包吃完 ? ” 的问题中，在大部分 AI 给出永远吃不完的答案时， Kimi 数学版觉得 “ 是有物理极限的 ” ，认为分到了一纳米就不能分了。。。

这种对任务拆解的能力，夸张到什么程度，即使你问它 1+1 等于多少， Kimi 数学版都能给你唠半天，截图根本截不完。

另外，在思维链的作用下，对纠正 AI 模型犯蠢、不会抓重点的老毛病也有一定效果。

像前段时间苹果就发了篇论文，大概意思是说模型压根就不会推理，随便加几个无关痛痒的干扰条件，模型的准确率就会下降。

但世超这次分别拿 Kimi 数学版和豆包试了试，题目是：超市里，每袋大米售价 50 元，每瓶酱油售价 10 元。如果鲜虾包购买了 4 袋大米和 4 瓶酱油，并且送给邻居 1 袋大米和 2 瓶酱油，那么鲜虾包购买大米比酱油多花了多少钱？

这道题，还特地加了 “ 送给邻居 1 袋大米和 2 瓶酱油 ” 的陷阱。

豆包多少就有点不懂人情世故了，还把自个儿留存的大米和酱油单独拎出来算。

反观 Kimi 数学版，深知送出去的礼物泼出去的水。

反正测试下来， k0-math 的解题准确率不能说百分百，但调用了思维链之后的逻辑推理过程，很大程度上提高了 Kimi 这个做题家的数学水平。

而且世超也发现，除了 k0-math 外，国内的幻方 DeepSeek 前两天也搞了个推理模型 DeepSeek-R1-Lite ，同样也是纸上水平媲美 o1 。

又是 o1 系列，又是 k0-math 、 DeepSeek-R1-Lite ，可能有差友也好奇，之前不是还在长文本吗，这怎么突然就卷起了推理能力了？

其实，传统的拼算力、拼数据在大模型领域，已经遇到了一定的瓶颈，而靠着强化学习，提高大模型的推理能力，已经成了大伙们卷的新方向。

这强化学习说白了，就是在训练时让 AI 自己试错，最后摸索出正确答案。

像 Claude Sonnet 3.5 就是基于强化学习，实现了代码能力的提升。包括 Kimi 创始人杨植麟在前阵子的媒体分享会上，也无数次 cue 到了强化学习，还说他们接下来会越来越关注基于强化学习的方法去继续迭代。

最后，借用杨植麟的 “ 登月论 ” ，如果说，先前的长文本是通往 AGI 的第一步，那么现在让 AI 学会思考，则是正式开启了第二阶段。

撰文：西西

编辑：江江&面线

美编：萱萱

图片、资料来源：

Kimi 、豆包、智谱清言、 ChatGPT

部分图源网络

Kimi的数学模型来了，这次甚至能挑战高考。

热搜

热门跟贴

热搜

热门跟贴

相关推荐

大学老师的闺女数学考8分，给他气得三天没说话

同一道数学题，印度这是什么算法，比中国还要快

科学与数学，密不可分的伙伴关系

终于知道为啥俄罗斯数学那么强！看完网友深度剖析，彻底顿悟了

天才少女姜萍，全球数学竞赛第十二名，是金子在哪都会发光！

算术不好别做坏人，容易被忽悠

北大的韦神又火了！这次可不是因为他那些高深莫测的数学研究，而是一张照片

为何聪明孩子爱“折腾”数学难题？ 这背后的逻辑不简单

闺女自从学了数学，每天掰不清的手指，不知道小学毕业纸板够不够

老公给女儿做的数学神器，眼前这一幕，才知道高手在民间

这样的数学题 你能撑到多久 数学 考试

学会数理化走遍天下都不怕

作弊的最高境界，万万没想到，新脑子就是好使

学好数理化，遇到怪兽也不怕

这是又是哪位大哥发明的黑科技？有了这个东西，还怕打不破记录吗

男孩挑战和火车比速度，不要命的操作，全世界找不出第二个

一名数理化学霸可抵千军万马

用升维的方式解决问题，才是顶级思维

Kimi、豆包领跑，国产AI迎来新格局

这届打工人，有自己的牛马可以使唤

为何聪明孩子爱“折腾”数学难题？这背后的逻辑不简单

这样的数学题你能撑到多久数学考试