被指又一次DeepSeek时刻，实测kimi K2 Thinking被这几道题难住了|deepseek|kimi|rain|thinking|测试题|编程

作者｜子川

来源｜AI先锋官

日前，月之暗面开源了最新一代大模型Kimi K2 Thinking。

新模型一经推出，好评如潮！

HuggingFace 联合创始人Thomas Wolf 甚至毫不吝啬的表示，“我们正在见证又一次 DeepSeek 时刻”。

知名学者Alvin Wang Graylin 也夸赞，其已经超越西方的闭源模型。

为什么此次月之暗面推出的Kimi K2 Thinking这么受欢迎？

我们接着往下看。

根据AI分析机构Artificial Analysis的评估，Kimi K2 Thinking在智能体相关任务中表现非常突出。

比如，在Artificial Analysis智能指数中，获得67分。

这一成绩使其领先于所有的其他开源模型，包括最近发布的MiniMax-M2和DeepSeek-V3.2-Exp，仅次于GPT-5。

在智能体工具调用 (²-Bench)测试中，Kimi K2 Thinking得分高达93%，是目前第三方机构测量到的最高分。

在在Humanity’s Last Exam（人类终极考试）评测中，Kimi K2 Thinking在无工具情况下的得分为22.3%，仅次于GPT-5和Grok 4。

这成绩已经不是国产SOTA了，当之无愧又一次的DeepSeek时刻。

据介绍， K2 Thinking 的参数规模高达万亿。

但其运行成本仍然很低，其 API 价格是百万 token 输入 0.15 美元（缓存命中）/0.6 美元（缓存未命中），每百万 token 输出 2.5 美元。

那K2 Thinking的实际效果到底如何？

老规矩，我们实测一番。

由于现在的模型的能力越来越强，并且有很多变量的存在，简单的题目已经无法测出模型的能力了。

于是我们决定用历届模型经常翻车的问题来逐一刁难它，看K2 Thinking究竟是否会翻车！（关闭搜索）

测试题一：爱心视觉错题

这是最近最火的一道视觉测试题，测试模型是否可以看到图片中的爱心。

目前没有一个模型回答正确，看K2 Thinking是否能回答正确。

K2 Thinking同样没看出图片中的爱心图标，它的回答是“一个圆形的图案漂浮在背景之上”。

测试题二：数值比较

测试题很简单，9.11-9.9=?

看这次K2 Thinking能否答对！

回答正确！并且还很贴心的把计算过程列出来了。

测试题三：数数题

“strawberryrrrrrr"中有几个字母“r"。

同样这道题对于我们来说非常简单，但对大模型的难度可不一般，此前多款顶尖模型拜倒在这道题的石榴裙下。

为了防止之前的题目会训练过，所有我们在“strawberry”的基础上，多在了6个“r”。

依旧回答正确，并且明确指出"strawberry"部分有 3个“r”，后面的"rrrrrr"部分有 6个“r”。

测试题四：竹子过门

一根5米长的竹竿，能不能通过高2米、宽2米的城门？

同样这道题我们也做了简单从处理。

终于，被这道题难到了，不过也很正常，这道题很多模型都回答不出。

下面再来道非常烧脑的逻辑题。

测试题五：爱因斯坦斑马问题

提示词：

1、一条街上有五座不同颜色的房子，每座房子住着不同国籍的人，每个人有不同的职业，喝不同的饮料，养不同的宠物。

2、英国人住在红色的房子里；

3、西

班牙人养了一条狗；

4、日本人是一个油漆工；

5、意大利人喜欢喝茶；

6、挪威人住在左边的第一个房子里；

7、绿房子在白房子的右边；

8、摄影师养了一只蜗牛；

9、外交官住在黄房子里；

10、中间房子里的那个人喜欢喝牛奶；

11、喜欢喝咖啡的人住在绿房子里；

12、挪威人住在蓝色的房子旁边；

13、小提琴家喜欢喝橘子汁；

14、养狐狸的人所住的房子与医师的房子相邻；

15、养马的人所住的房子与外交官的房子相邻。

先给大家公布正确的答案。

回答错误，再次难倒。

为了更全面的了解K2 Thinking的能力，我们再来测试几道编程题。

测试题六：使用 p5.js 创建一个精彩的动画

整体体验非常流畅，效果十分不错。

上上难度，来一个非常经典的编程题。

测试题七：天气卡片

提示词：

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

基本上提示词上所有的功能都实现了，而且呈现的动画效果依旧流畅。

看来难度不够，最后再来一个非常复杂的游戏编程题。

测试题八：3D打砖游戏

提示词：

“创建一个完全由鼠标控制的3D打砖块游戏：

1.使用Three.js构建沉浸式3D场景，包含以下核心组件：可左右滑动的玩家挡板（Paddle）：通过鼠标水平移动控制；具备物理属性的弹跳球体：初始速度适中，碰撞后遵循反射定律；多排彩色悬浮砖块（Bricks）：不同颜色对应不同分值

2.物理效果要求：碰撞检测：球体与砖块/挡板/边界精确碰撞；动态反弹：挡板不同位置碰撞改变球的水平反弹角度；重力模拟：球体运动轨迹呈自然抛物线

3.游戏机制：计分系统：击碎砖块实时计分（普通砖=10分，金色砖=50分）；生命值：初始3条命，球掉落底部则扣除生命；速度进化：每击碎10块砖，球速提升15%

4.视觉特效：砖块击碎时触发粒子爆炸效果；球体运动轨迹添加动态拖尾光效；挡板碰撞时出现环形冲击波动画

5.交互增强：实时显示分数和生命值HUD；游戏结束界面显示最终得分+重新开始按钮；添加碰撞音效（使用Web Audio API）”

同样这次功能都基本实现了，不过也出现些许bug，无法移动到最左侧。

看来这次程序员有福了，编程能力辣么强，而且价格又低，简直就是代替Claude sonnet 4.5的不二之选。