横评DeepSeek、Claude、GPT、Kimi，结果大跌眼镜…|claude|deepseek|gpt|kimi|opus|张雪

来源：市场资讯

（来源：沃垠AI）

最近，模型圈又卷起来了，A厂、O厂和鲸鱼都陆续发布了新模型。特别是DeepSeek V4，一发布就冲上了各种热搜。

好多人都在问DeepSeek V4到底在开源模型中是什么地位，又和闭源模型差多少呢？

于是，我花了400元，实测对比了几款热门大模型，分别是：公认的顶级闭源模型 Claude Opus 4.6、GPT-5.4和顶级开源模型Kimi K2.6、DeepSeek V4 Pro。

下面，我们基于实测结果，全面评估一下Kimi K2.6、DeepSeek-V4-Pro、Claude Opus 4.6以及GPT-5.4，看看如今的AI顶流之战，谁才是真正的版本答案。

一手实测

1）前端：信息图

先测一个我们最常用到的信息图，主要看模型的信息提炼能力、视觉排版能力和内容完整度。

提示词：提炼下面文字内容的核心关键点，创建一个HTML网页。文字内容：这里是一段文字内容网页的设计要求如下：1.视觉设计：采用{Magazine Layout}风格布局，{深色}主题色，营造现代高端氛围。2.字体与排版：·使用超大字体或数字突出核心要点，中文采用大号粗体，强调视觉冲击力。·英文使用小号字体作为点缀，与中文形成比例反差，提升设计层次感。3视觉元素：·融入超大视觉元素（如标题、背景图或装饰）以突出重点，与小型元素形成强烈对比。·使用简洁的勾线风格图形作为数据可视化或配图元素，保持现代感和清晰度。4.色彩与效果：运用高亮色（单色透明度渐变）营造科技感，每种高亮色独立使用，避免不同高亮色之间的渐变混杂。5.技术要求：引入专业图标库（如Font Awesome或Material Icons，通过CDN加载），避免使用emoji作为主要图标。6.内容要求：提炼内容关键要点，不忽略重要细节。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

整体来看，Kimi K2.6和DeepSeek-V4-Pro在这个case中表现最好，内容提炼得到位，视觉效果也更具冲击力，布局、配色和字体搭配有层次感。

Claude Opus 4.6内容总结得不错，关键信息都没有遗漏，但是视觉效果一般。GPT-5.4 也是同样的问题。

2）前端：旅游网站

接下来，我们试试让大模型看图做设计，测测模型的图片理解和审美迁移能力。

提示词：你是一个有顶级审美的网页设计专家，请根据"xxxx.jpg"这张图的元素和风格，设计一个旅游网站。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

这个项目完成最好的是Claude Opus 4.6和Kimi K2.6，对于我给出的图片风格都有自己的理解，并且按照这个理解来设计视觉效果。

而DeepSeek-V4-Pro和GPT-5.4做的网页，图片都没加载出来，前者是因为不支持多模态，但是后者应该不至于。

3）3D任务

3D任务主要看模型的前端能力，考验模型对三维空间理解、Three.js组织能力和生成结果的稳定性。

提示词：制作一个3D的雪山场景html，雪山中间有一个中式的寺庙，整体风格参考塞尔达旷野之息。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

在这个任务中，GPT-5.4的表现不及格，一直卡在雪山页面根本动不了；DeepSeek-V4-Pro倒是完成了任务，但是建模肉眼可见的粗糙。

Claude Opus 4.6和Kimi K2.6的建模就很不错，3D场景创建的挺好，旋转、缩放展示也都非常流畅，做到了提示词要求的“雪山+日式寺庙+塞尔达风格”。

特别是Kimi K2.6，雪山、建筑、雪花粒子这些细节上的表现，真的太强了。

4）网站开发

需求是，让模型基于我给到的模特照片，做一个摄影师作品集网站。

提示词：我是拍模特广告的摄影师，我的工作室叫「小逸摄影」，文件夹 xxx 放了一些模特图片，给我生成一个高级审美、大师级别水准的摄影师作品集网站，用文件夹里的图配上精美的讲解。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

Kimi K2.6生成的网页实在是太棒了，在logo、文字配色、交互动画这些UI细节上的表现非常强，说明是真的读懂了图像，完全是基于图片内容和风格来生成的。

Claude Opus 4.6生成的页面风格也非常有特点，但图片的展示比较简单。

至于DeepSeek-V4-Pro和GPT-5.4我只想说，为啥别人都有图，你俩却加载不出来。很明显是遇到bug了，需要人工来修。

5）Skills任务

前两天，我用DeepSeek-V4-Pro跑了一个PPT，效果非常满意。这次也让所有模型都来对比一下。

提示词：根据"xxxx.txt"的内容，用guizang-ppt-skill做一份10页的PPT。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

这个调用skill的任务，四个模型都调用成功了。做出来的效果也大差不差，没啥大的区别，可能skill已经把路径限制的很死，没留太多模型自我发挥的余地。

6）Agent长程任务

任务，还是我们的老case，让Claude Code做一个联网搜索+word生成+skill调用+网站开发的复杂长程任务。

提示词：联网搜索、调研张雪机车的发展轨迹，尽量从权威信源获取信息。首先，给我创建一份5000字的word调研报告。然后，调用qiaomu-knowledge-site-creator skill给这份报告创建一个知识学习网页，页面高级审美。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

因为是长程任务，需要模型先后调用WebSearch、python生成word、skills和网站开发等工具能力，还包括网站上线前测试的chrome-devtools-mcp，所以这个长程任务，大家都消耗了很长的时间。

所幸结果，大家都完成了。

从生成的调研报告来看，Kimi K2.6是最好的（他们家的WebSearch能力一直就很强），其次是Claude Opus 4.6和DeepSeek-V4-Pro，最差的是 GPT-5.4，你好歹给我排版一下啊

从生成的网站来看，GPT-5.4嘴上说调用skill成功，但是最后生成的东西完全跟 skill不符，其他三个都生成的中规中矩，Kimi K2.6在页面美化上稍强一点。

7）费用情况

最后，我们来算一下Coding成本。

本期测评花费如下：

Claude Opus 4.6，16.4美刀；
GPT-5.4，22.8美刀；
Kimi K2.6，我用的是Coding Plan套餐，大概消耗里月额度的1/10，换算下来是4块钱；
DeepSeek-V4-Pro，接的昨天降价后的API，约2.4元。

说实话，对于这个成本来说，Claude和GPT是非常不划算的，Claude生成的效果与Kimi差不多，但价格竟然差了近30倍！GPT更是效果也不好，但却是花得最多的，十分不推荐。

降价后的DeepSeek，算是物美价廉。

综合测评下来，如果要论成本，API降价后的DeepSeek V4无疑是最划算的。但是它没有多模态，很多coding场景受限。

如果要论性价比，Kimi K2.6则是最合适的，能力比肩甚至超越全球顶尖模型，而成本却不到他们的几十分之一。

另外，kimi也有多模态，Agent能力在线，综合能力确实不错。

而Claude和GPT，至少在本次任务测试中并未表现出有代差的能力，大家旗鼓相当。甚至部分场景，GPT还比较拉胯。

我是冷逸，你们的AI测评手替。如果你有想测的场景，欢迎在评论区甩出来，咱们互相抄作业。

热搜

热门跟贴

相关推荐

张雪回答三个大家关心的问题

张雪机车工厂门口，一名小伙想找张雪合作

“张雪机车”香港总代理：希望人们不再觉得国产车不行

张雪的铁杆车粉在镇上偶遇到张雪，直接追到家里，张雪邀请吃饭

张雪妈妈何琼女士莅临邬辣妈公司，提起儿子张雪，赞不绝口！

今天来拆一台，张雪820给大家看看，分析一下有没有改进的地方！

13年前张雪夫妻在重庆，给浙江阿波罗发10周年祝福，儿子在旁

张雪820拆解分析，看看发动机用工用料到底怎样！

张雪对摩托车是真的热爱，这样的企业家让人敬佩

给想买张雪500的人提个醒

浅试张雪820RR ，座高对女生也很友好，有兴趣的可以去试驾一下

深夜时谈 张雪：辞职前问自己三个问题，开心、赚钱、成长 至少要占两个

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

英伟达巧用8B模型秒掉GPT-5 开源了

张雪搅动国产摩托圈

Claude全程完成“谈判和交易”，Anthropic在上周五悄悄“试水”了电商

张雪专访揭秘未来车型，64号车手或迎新突破！

卡帕西都整破防了：AI Coding没门槛，可部署环节真嗯啊的难

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

张雪发视频回应为何声援余承东 ，称“拒绝了半个亿的商务合作”

深夜时谈张雪：辞职前问自己三个问题，开心、赚钱、成长至少要占两个

张雪发视频回应为何声援余承东，称“拒绝了半个亿的商务合作”