大家好,我是 Ai 学习的老章

Kimi-K2-Thinking 开源大模型新王,权威测试结果公布之后,很多读者怀疑它的真实水平,很多榜单确实各种领先,甚至碾压 DeepSeek V3.2,我个人之前的文章也没有用完全的题目对比目前比较热门的国产开/闭源旗舰级大模型(DeepSeek R1、Kimi K2 Thinking、Qwen3-Max、文心一言 5.0)。

本文顺便把之前的测试梳理一下,同时加入 DeepSeek V3.2 进行对比

排名非常主观,仅为个人见解,不代表所测模型真实水平,不喜勿碰。

省流:
第一题:Kimi K2 Thinking > DeepSeek > Qwen3-Max > 文心一言 5.0
第二题:Qwen3-Max > DeepSeek > Kimi K2 Thinking > 文心一言 5.0
第三题:DeepSeek > Kimi K2 Thinking > Qwen3-Max > 文心一言 5.0
第四题:Kimi K2 Thinking = Qwen3-Max > DeepSeek > 文心一言 5.0
第五题:Kimi K2 Thinking > DeepSeek > 文心一言 5.0 > Qwen3-Max
第六题:Kimi K2 Thinking > DeepSeek >= 文心一言 5.0> Qwen3-Max

第0题:用Base64随意生成一个有趣的图片,排名见下图

打开网易新闻 查看精彩图片

测试 1:总结朱自清《背影》绘制 SVG

结论:Kimi K2 Thinking > DeepSeek > Qwen3-Max > 文心一言 5.0

DeepSeek 没有识别出 4 次背影,原文引用也不对。不如 Kimi K2 Thinking,和 Qwen3-Max 一个级别,美观上稍微好点。

打开网易新闻 查看精彩图片

Kimi K2 Thinking

 测试 2:生成器官分布
打开网易新闻 查看精彩图片
测试 2:生成器官分布

结论:Qwen3-Max > DeepSeek > Kimi K2 Thinking >文心一言 5.0

DeepSeek 生成的 html 是可交互的,鼠标移动过去可以显示简介

打开网易新闻 查看精彩图片

比 Kimi K2 Thinking 内容更丰富,画面也美观一点点

 测试 3:用 html 创建一个带有旋转星云和动态光照的 3D 粒子星系。
打开网易新闻 查看精彩图片
测试 3:用 html 创建一个带有旋转星云和动态光照的 3D 粒子星系。

DeepSeek > Kimi K2 Thinking > Qwen3-Max > 文心一言 5.0

DeepSeek 感觉是最响应题目的,其他模型也都能完成,但多少有点画蛇添足

打开网易新闻 查看精彩图片

K2 也还行,可以增加星云数量

Qwen3-Max 生成的结果,右侧参数栏很多摆设

打开网易新闻 查看精彩图片

测试 4:发挥你的最大才能,用你最擅长的工具,生成一组数据后绘制数据大屏,主题自拟。

结论: Kimi K2 Thinking = Qwen3-Max > DeepSeek > 文心一言 5.0

DeepSeek 创建一个完整的"全球电商销售数据分析大屏"项目,300 多行代码,Python+Plotly + Dash 实现,前两次代码均报错

打开网易新闻 查看精彩图片

第三次成功,但是我觉得它太不像大屏了

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

K2 Thinking 生成的是"未来智慧城市运营中心"主题的数据大屏,包含动态生成的多维度城市运营数据。一共 285 行代码。前两次均报 bug,第三次成功生成!

打开网易新闻 查看精彩图片

对比 Qwen3-Max⬇️,它第一次的代码也报错,第二次成功

 测试 5:3D 动画演示月食原理及全过程
打开网易新闻 查看精彩图片
测试 5:3D 动画演示月食原理及全过程

结论:Kimi K2 Thinking > DeepSeek > 文心一言 5.0 > Qwen3-Max

首次执行报错:很低级的错误,字符串引号语法错误

然后成功,它理解了月食原理,没有绘制太阳,但是光线轨迹是对的。但是问题不少,文字说明覆盖动画无法消除,月食实际出现时间与说明完全不符。

Kimi K2 Thinking 一次成功,总体思路没问题,月食阶段没有匹配上

测试 6:生成一个动态网页,展现绚丽多彩的烟花盛况,样式要多,颜色要炫

结论:Kimi K2 Thinking > DeepSeek >= 文心一言 5.0 > Qwen3-Max

DeepSeek 用了 Canvas 绘制烟花效果,烟花样式(圆形、柳絮形、螺旋形等),有交互功能(点击生成烟花、自动播放等)

缺点:大量烟花其实只有轨迹,等很久也就只有三四个绽放

K2 Thinking vs Qwen3-Max 的视频

老章荐书