来源:市场资讯
(来源:沃垠AI)
最近,模型圈又卷起来了,A厂、O厂和鲸鱼都陆续发布了新模型。特别是DeepSeek V4,一发布就冲上了各种热搜。
好多人都在问DeepSeek V4到底在开源模型中是什么地位,又和闭源模型差多少呢?
于是,我花了400元,实测对比了几款热门大模型,分别是:公认的顶级闭源模型 Claude Opus 4.6、GPT-5.4和顶级开源模型Kimi K2.6、DeepSeek V4 Pro。
下面,我们基于实测结果,全面评估一下Kimi K2.6、DeepSeek-V4-Pro、Claude Opus 4.6以及GPT-5.4,看看如今的AI顶流之战,谁才是真正的版本答案。
一手实测
1)前端:信息图
先测一个我们最常用到的信息图,主要看模型的信息提炼能力、视觉排版能力和内容完整度。
提示词:提炼下面文字内容的核心关键点,创建一个HTML网页。文字内容:这里是一段文字内容网页的设计要求如下:1.视觉设计:采用{Magazine Layout}风格布局,{深色}主题色,营造现代高端氛围。2.字体与排版:·使用超大字体或数字突出核心要点,中文采用大号粗体,强调视觉冲击力。·英文使用小号字体作为点缀,与中文形成比例反差,提升设计层次感。3视觉元素:·融入超大视觉元素(如标题、背景图或装饰)以突出重点,与小型元素形成强烈对比。·使用简洁的勾线风格图形作为数据可视化或配图元素,保持现代感和清晰度。4.色彩与效果:运用高亮色(单色透明度渐变)营造科技感,每种高亮色独立使用,避免不同高亮色之间的渐变混杂。5.技术要求:引入专业图标库(如Font Awesome或Material Icons,通过CDN加载),避免使用emoji作为主要图标。6.内容要求:提炼内容关键要点,不忽略重要细节。Claude Opus 4.6:
GPT-5.4:
DeepSeek-V4-Pro:
Kimi K2.6:
整体来看,Kimi K2.6和DeepSeek-V4-Pro在这个case中表现最好,内容提炼得到位,视觉效果也更具冲击力,布局、配色和字体搭配有层次感。
Claude Opus 4.6内容总结得不错,关键信息都没有遗漏,但是视觉效果一般。GPT-5.4 也是同样的问题。
2)前端:旅游网站
接下来,我们试试让大模型看图做设计,测测模型的图片理解和审美迁移能力。
提示词:你是一个有顶级审美的网页设计专家,请根据"xxxx.jpg"这张图的元素和风格,设计一个旅游网站。
Claude Opus 4.6:
GPT-5.4:
DeepSeek-V4-Pro:
Kimi K2.6:
这个项目完成最好的是Claude Opus 4.6和Kimi K2.6,对于我给出的图片风格都有自己的理解,并且按照这个理解来设计视觉效果。
而DeepSeek-V4-Pro和GPT-5.4做的网页,图片都没加载出来,前者是因为不支持多模态,但是后者应该不至于。
3)3D任务
3D任务主要看模型的前端能力,考验模型对三维空间理解、Three.js组织能力和生成结果的稳定性。
提示词:制作一个3D的雪山场景html,雪山中间有一个中式的寺庙,整体风格参考塞尔达旷野之息。
Claude Opus 4.6:
GPT-5.4:
DeepSeek-V4-Pro:
Kimi K2.6:
在这个任务中,GPT-5.4的表现不及格,一直卡在雪山页面根本动不了;DeepSeek-V4-Pro倒是完成了任务,但是建模肉眼可见的粗糙。
Claude Opus 4.6和Kimi K2.6的建模就很不错,3D场景创建的挺好,旋转、缩放展示也都非常流畅,做到了提示词要求的“雪山+日式寺庙+塞尔达风格”。
特别是Kimi K2.6,雪山、建筑、雪花粒子这些细节上的表现,真的太强了。
4)网站开发
需求是,让模型基于我给到的模特照片,做一个摄影师作品集网站。
提示词:我是拍模特广告的摄影师,我的工作室叫「小逸摄影」,文件夹 xxx 放了一些模特图片,给我生成一个高级审美、大师级别水准的摄影师作品集网站,用文件夹里的图配上精美的讲解。
Claude Opus 4.6:
GPT-5.4:
DeepSeek-V4-Pro:
Kimi K2.6:
Kimi K2.6生成的网页实在是太棒了,在logo、文字配色、交互动画这些UI细节上的表现非常强,说明是真的读懂了图像,完全是基于图片内容和风格来生成的。
Claude Opus 4.6生成的页面风格也非常有特点,但图片的展示比较简单。
至于DeepSeek-V4-Pro和GPT-5.4我只想说,为啥别人都有图,你俩却加载不出来。很明显是遇到bug了,需要人工来修。
5)Skills任务
前两天,我用DeepSeek-V4-Pro跑了一个PPT,效果非常满意。这次也让所有模型都来对比一下。
提示词:根据"xxxx.txt"的内容,用guizang-ppt-skill做一份10页的PPT。
Claude Opus 4.6:
GPT-5.4:
DeepSeek-V4-Pro:
Kimi K2.6:
这个调用skill的任务,四个模型都调用成功了。做出来的效果也大差不差,没啥大的区别,可能skill已经把路径限制的很死,没留太多模型自我发挥的余地。
6)Agent长程任务
任务,还是我们的老case,让Claude Code做一个联网搜索+word生成+skill调用+网站开发的复杂长程任务。
提示词:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份5000字的word调研报告。然后,调用qiaomu-knowledge-site-creator skill给这份报告创建一个知识学习网页,页面高级审美。
Claude Opus 4.6:
GPT-5.4:
DeepSeek-V4-Pro:
Kimi K2.6:
因为是长程任务,需要模型先后调用WebSearch、python生成word、skills和网站开发等工具能力,还包括网站上线前测试的chrome-devtools-mcp,所以这个长程任务,大家都消耗了很长的时间。
所幸结果,大家都完成了。
从生成的调研报告来看,Kimi K2.6是最好的(他们家的WebSearch能力一直就很强),其次是Claude Opus 4.6和DeepSeek-V4-Pro,最差的是 GPT-5.4,你好歹给我排版一下啊
从生成的网站来看,GPT-5.4嘴上说调用skill成功,但是最后生成的东西完全跟 skill不符,其他三个都生成的中规中矩,Kimi K2.6在页面美化上稍强一点。
7)费用情况
最后,我们来算一下Coding成本。
本期测评花费如下:
Claude Opus 4.6,16.4美刀;
GPT-5.4,22.8美刀;
Kimi K2.6,我用的是Coding Plan套餐,大概消耗里月额度的1/10,换算下来是4块钱;
DeepSeek-V4-Pro,接的昨天降价后的API,约2.4元。
说实话,对于这个成本来说,Claude和GPT是非常不划算的,Claude生成的效果与Kimi差不多,但价格竟然差了近30倍!GPT更是效果也不好,但却是花得最多的,十分不推荐。
降价后的DeepSeek,算是物美价廉。
综合测评下来,如果要论成本,API降价后的DeepSeek V4无疑是最划算的。但是它没有多模态,很多coding场景受限。
如果要论性价比,Kimi K2.6则是最合适的,能力比肩甚至超越全球顶尖模型,而成本却不到他们的几十分之一。
另外,kimi也有多模态,Agent能力在线,综合能力确实不错。
而Claude和GPT,至少在本次任务测试中并未表现出有代差的能力,大家旗鼓相当。甚至部分场景,GPT还比较拉胯。
我是冷逸,你们的AI测评手替。如果你有想测的场景,欢迎在评论区甩出来,咱们互相抄作业。
热门跟贴