大家好,我是 Ai 学习的老章
我用相同的几个题目测试了 DeepSeek R1、Kimi K2 Thinking、Qwen3-Max、文心一言 5.0
Gemini 3 Pro 来了,咱们也测测看,是否真的有如神助?
排名非常主观,仅为个人见解,不代表所测模型真实水平,不喜勿碰。
省流:
第一题:Gemini 3 Pro > Kimi K2 Thinking DeepSeek > Qwen3-Max > 文心一言 5.0
第二题:Qwen3-Max =Gemini-3-Pro > DeepSeek > Kimi K2 Thinking >文心一言 5.0
第三题:Gemini-3-Pro >= DeepSeek > Kimi K2 Thinking > Qwen3-Max > 文心一言 5.0
第四题:Kimi K2 Thinking = Qwen3-Max > DeepSeek > Gemini-3-Pro > 文心一言 5.0
第五题:Gemini-3-Pro > Kimi K2 Thinking > DeepSeek > 文心一言 5.0 > Qwen3-Max
第六题:Kimi K2 Thinking > Gemini-3-Pro> DeepSeek > Qwen3-Max > 文心一言 5.0
Gemini 3 Pro 我是在 Google AI Studio 的 Playground 中测试的
把之前的几个模型测试结果都拿过来挺麻烦的,我只在部分题目中展现
有兴趣的同学查看我之前的文章即可
测试 1:总结朱自清《背影》绘制 SVG
结论:Gemini 3 Pro > Kimi K2 Thinking DeepSeek > Qwen3-Max > 文心一言 5.0
Gemini 3 Pro 审美相当在线,还使用了更美观的字体,目前国产模型没有可以得及格分的,别说美观,连 4 次背影识别都做不到
缺点:第二次的原文引用有问题
如果它第二次可以引用正确,那就比 Claude 3.7 还要优秀了
下面是 N 多月之前我用 Claude 3.7 绘制的 svg,一直被当做标准答案
这个很难排名,只能说它生成的相当清爽、干净、最有人体轮廓
看过其他模型的结果,才发现之前有超预期发挥的案例是用了 html 实现,而非我要求的 svg
结论:Qwen3-Max =Gemini-3-Pro > DeepSeek > Kimi K2 Thinking >文心一言 5.0
结论:Gemini-3-Pro >= DeepSeek > Kimi K2 Thinking > Qwen3-Max > 文心一言 5.0
Gemini-3-Pro 更应题,而且也很流畅、干净、美观
Gemini-3-Pro 生成的事全球清洁能源与碳排放实时监控指挥中心仪表盘,这很谷歌
但是它是用了 Pyecharts,有点弱鸡了,经历了三次 bug 修复才成功,结果还特别差劲,无力吐槽
结论:Kimi K2 Thinking = Qwen3-Max > DeepSeek > Gemini-3-Pro > 文心一言 5.0
对比 Qwen3-Max⬇️,它第一次的代码也报错,第二次成功 测试 5:3D 动画演示月食原理及全过程
这几个题目国产模型尚无可以完美体现月食原理的,生成的 Three.js 动画也都很差劲
Gemini-3-Pro 就相当成功,截至目前我最满意的了
太阳 (光源):设置在左侧远处。使用 DirectionalLight 产生平行光,并开启 castShadow 产生投影
月球 (被投射体):围绕地球运动
两个半透明的圆锥体延伸在地球背后。
深色内锥:代表本影,这里阳光完全被挡住。
浅色外锥:代表半影,这里只有部分阳光被挡住。
当月球的位置坐标进入“本影半径”范围内时,手动修改月球材质的自发光属性为暗红色。这模拟了食甚时的视觉奇观。
结论:Gemini-3-Pro > Kimi K2 Thinking > DeepSeek > 文心一言 5.0 > Qwen3-Max
DeepSeek 理解了月食原理,没有绘制太阳,但是光线轨迹是对的。但是问题不少,文字说明覆盖动画无法消除,月食实际出现时间与说明完全不符。
Kimi K2 Thinking 一次成功,总体思路没问题,月食阶段没有匹配上
测试 6:生成一个动态网页,展现绚丽多彩的烟花盛况,样式要多,颜色要炫
很好流畅,看起思考过程,代码中很多设计使其更符合物理原理,只是烟花样式太少了
结论:Kimi K2 Thinking > Gemini-3-Pro> DeepSeek > Qwen3-Max > 文心一言 5.0
DeepSeek 用了 Canvas 绘制烟花效果,烟花样式(圆形、柳絮形、螺旋形等),有交互功能(点击生成烟花、自动播放等)缺点:大量烟花其实只有轨迹,等很久也就只有三四个绽放
K2 Thinking vs Qwen3-Max 的视频
老章荐书
热门跟贴