作者|子川

来源|AI先锋官

日前,月之暗面开源了最新一代大模型Kimi K2 Thinking。

新模型一经推出,好评如潮!

HuggingFace 联合创始人Thomas Wolf 甚至毫不吝啬的表示,“我们正在见证又一次 DeepSeek 时刻”。

打开网易新闻 查看精彩图片

知名学者Alvin Wang Graylin 也夸赞,其已经超越西方的闭源模型。

打开网易新闻 查看精彩图片

为什么此次月之暗面推出的Kimi K2 Thinking这么受欢迎?

我们接着往下看。

根据AI分析机构Artificial Analysis的评估,Kimi K2 Thinking在智能体相关任务中表现非常突出。

比如,在Artificial Analysis智能指数中,获得67分。

打开网易新闻 查看精彩图片

这一成绩使其领先于所有的其他开源模型,包括最近发布的MiniMax-M2和DeepSeek-V3.2-Exp,仅次于GPT-5。

在智能体工具调用 (²-Bench)测试中,Kimi K2 Thinking得分高达93%,是目前第三方机构测量到的最高分。

打开网易新闻 查看精彩图片

在在Humanity’s Last Exam(人类终极考试)评测中,Kimi K2 Thinking在无工具情况下的得分为22.3%,仅次于GPT-5和Grok 4。

打开网易新闻 查看精彩图片

这成绩已经不是国产SOTA了,当之无愧又一次的DeepSeek时刻。

打开网易新闻 查看精彩图片

据介绍, K2 Thinking 的参数规模高达万亿。

但其运行成本仍然很低,其 API 价格是百万 token 输入 0.15 美元(缓存命中)/0.6 美元(缓存未命中),每百万 token 输出 2.5 美元。

打开网易新闻 查看精彩图片

那K2 Thinking的实际效果到底如何?

老规矩,我们实测一番。

由于现在的模型的能力越来越强,并且有很多变量的存在,简单的题目已经无法测出模型的能力了。

于是我们决定用历届模型经常翻车的问题来逐一刁难它,看K2 Thinking究竟是否会翻车!(关闭搜索)

测试题一:爱心视觉错题

这是最近最火的一道视觉测试题,测试模型是否可以看到图片中的爱心。

目前没有一个模型回答正确,看K2 Thinking是否能回答正确。

打开网易新闻 查看精彩图片

K2 Thinking同样没看出图片中的爱心图标,它的回答是“一个圆形的图案漂浮在背景之上”。

测试题二:数值比较

测试题很简单,9.11-9.9=?

看这次K2 Thinking能否答对!

打开网易新闻 查看精彩图片

回答正确!并且还很贴心的把计算过程列出来了。

测试题三:数数题

“strawberryrrrrrr"中有几个字母“r"。

同样这道题对于我们来说非常简单,但对大模型的难度可不一般,此前多款顶尖模型拜倒在这道题的石榴裙下。

为了防止之前的题目会训练过,所有我们在“strawberry”的基础上,多在了6个“r”。

打开网易新闻 查看精彩图片

依旧回答正确,并且明确指出"strawberry"部分有 3个“r”,后面的"rrrrrr"部分有 6个“r”。

测试题四:竹子过门

一根5米长的竹竿,能不能通过高2米、宽2米的城门?

同样这道题我们也做了简单从处理。

打开网易新闻 查看精彩图片

终于,被这道题难到了,不过也很正常,这道题很多模型都回答不出。

下面再来道非常烧脑的逻辑题。

测试题五:爱因斯坦斑马问题

提示词:

1、 一条街上有五座不同颜色的房子,每座房子住着不同国籍的人,每个人有不同的职业,喝不同的饮料,养不同的宠物。

2、英国人住在红色的房子里;

3、西

班牙人养了一条狗;

4、日本人是一个油漆工;

5、意大利人喜欢喝茶;

6、挪威人住在左边的第一个房子里;

7、绿房子在白房子的右边;

8、摄影师养了一只蜗牛;

9、外交官住在黄房子里;

10、中间房子里的那个人喜欢喝牛奶;

11、喜欢喝咖啡的人住在绿房子里;

12、挪威人住在蓝色的房子旁边;

13、小提琴家喜欢喝橘子汁;

14、养狐狸的人所住的房子与医师的房子相邻;

15、养马的人所住的房子与外交官的房子相邻。

先给大家公布正确的答案。

打开网易新闻 查看精彩图片

回答错误,再次难倒。

打开网易新闻 查看精彩图片

为了更全面的了解K2 Thinking的能力,我们再来测试几道编程题。

测试题六:使用 p5.js 创建一个精彩的动画

整体体验非常流畅,效果十分不错。

上上难度,来一个非常经典的编程题。

测试题七:天气卡片

提示词:

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

基本上提示词上所有的功能都实现了,而且呈现的动画效果依旧流畅。

看来难度不够,最后再来一个非常复杂的游戏编程题。

测试题八:3D打砖游戏

提示词:

“创建一个完全由鼠标控制的3D打砖块游戏:

1.使用Three.js构建沉浸式3D场景,包含以下核心组件:可左右滑动的玩家挡板(Paddle):通过鼠标水平移动控制;具备物理属性的弹跳球体:初始速度适中,碰撞后遵循反射定律;多排彩色悬浮砖块(Bricks):不同颜色对应不同分值

2.物理效果要求:碰撞检测:球体与砖块/挡板/边界精确碰撞;动态反弹:挡板不同位置碰撞改变球的水平反弹角度;重力模拟:球体运动轨迹呈自然抛物线

3.游戏机制:计分系统:击碎砖块实时计分(普通砖=10分,金色砖=50分);生命值:初始3条命,球掉落底部则扣除生命;速度进化:每击碎10块砖,球速提升15%

4.视觉特效:砖块击碎时触发粒子爆炸效果;球体运动轨迹添加动态拖尾光效;挡板碰撞时出现环形冲击波动画

5.交互增强:实时显示分数和生命值HUD;游戏结束界面显示最终得分+重新开始按钮;添加碰撞音效(使用Web Audio API)”

同样这次功能都基本实现了,不过也出现些许bug,无法移动到最左侧。

看来这次程序员有福了,编程能力辣么强,而且价格又低,简直就是代替Claude sonnet 4.5的不二之选。

总的来说,K2 Thinking能力确实非常顶,上述的测试题都仅测试了一次,特别是编程题,完成度很高。

大家感兴趣的可以去体验一下,K2 Thinking已上线Kimi啦。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾