k0-math模型上线Kimi，实测效果还不错

AI先锋官

2024-11-27 08:16 ·北京

作者｜子川

来源｜AI先锋官

上上周末，Kimi宣布推出它们新一代数学推理模型 k0-math。对标o1，Kimi扔出了一份榜单：

在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 初代模型取得的成绩超越 o1-mini 和 o1-preview 模型。延伸阅读：

k0-math发布后，一直想要进行实测，奈何该模型还处于内部测试阶段。

终于！就在昨天下午，k0-math上线了，打开 Kimi 网页版 kimi.ai，找到侧边栏的「眼镜」图标，就是它了。

随即我们进行了一番实测，用它去体验一下数学竞赛题。

第一题：集合 A={1,2,…,10}的非空子集中，元素和是10的倍数的子集称为好子集.则A的好子集共有多少？

ennnnnnnnnn，可惜，答案是103，从解题过程来看，在102和103之间徘徊，最后根据推理选择了102。

不过可以看到这个计算过程是相当的详细，计算过程的每一步都清晰地写了出来。

小编还发现两个很有意思的点：“反复验证”和“回答通人性”。

起初，k0-math已经给出102这个答案，不过又用另外一种解题思路去验证答案是否准确。

同时计算过程中还会出现着“等等，似乎哪里出错了”“这样就对了”等拟人化的口语，以及计算过程中使用第一人称进行输出。

这种通人性的回答感觉还不错，为枯燥无味的数学解题过程提供了一丝趣味性。毕竟第一人称的优点是能使读者产生一种真实、亲切的感觉，有代入感。

回归正题，来第二道数学竞赛真题：

方程 \(5z^4 + 10z^3 + 10z^2 + 5z + 1 = 0\) 有四个复数根，其中模长最大的复数根的实部为多少

这次成功给出了准确答案。

第三题：经典大模型数学难题——9.8和9.11谁更大？

答案正确，用分数解决了这道困扰大模型许久的难题。

在过去不久的双十一，小编为了享受各种优惠，拉了不少朋友凑单。这次也让k0-math来体验凑单的快乐。第四题：

商品A的单价为50元，购买满3件时可享受第4件免费。商品B的单价为80元，购买满200元即可享受8折优惠。商品C的单价为100元，购买第2件时可以享受第二件半价，但不能与其他商品组合享受优惠。小明准备购买以下商品：商品A：6件商品B：3件商品C：2件请问小明最终需要支付多少元？

还得是双十一，买这么多东西只要542块钱！

在测试过程中，会发现k0-math有两个值得优化的地方：

第一是无法上传图片，毕竟数学领域的图形题占领了数学界的半壁江山。

第二是k0-math目前只支持一轮，不能支持多轮问答，意思就是不能再去追问了。

k0-math新鲜出炉，不少网友和机构也在第一时间进行了测试。

第三方测评机构SuperCLUE，基于SuperCLUE-Math6o奥林匹克数学竞赛基准，对k0-math进行了专项数学能力评估。

测试结果为：与o1-preview相比，数学模型 k0-math 在SC-math6o上仍有18分的差距，排名国内第二，第一的是深度求索的DeepSeek-R1-Lite-Preview。

由于评测的数据集有限，该榜单只能作为参考。不过这也侧面证明：k0-math已经跻身全球数学模型的第一梯队。

目前k0-math模型已经上新到kimi中，感兴趣的同学可以去体验一下。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴