大家好,我是冷逸。最近,中国模型杀疯了,我也快忙疯了

进入2026年,感觉我每天16个小时都泡在AI里,也追不上AI进化的速度。每天一睁眼,世界就变了样。

就这几天,Seedance 2.0以极强的导演级AI能力登顶视频王座。就在昨晚,悄悄上线了最新模型。而就在刚刚,智谱AI也发布了全新的基座模型GLM-5

这是它的bench得分。与自己的GLM-4.7比,大幅提升;与御三家相比,也互有胜负。

打开网易新闻 查看精彩图片

真的,麻了。

大家都在快快快快快,我也跟着追追追追追。

好好好,既然都在一个时间上线,那我就一起做期横评吧。

打开网易新闻 查看精彩图片

横评GLM-5与DeepSeek

DeepSeek新模型,测试渠道是在DeepSeek官网(已确认使用的是最新版)。

打开网易新闻 查看精彩图片

GLM-5是在Z.ai测试,主要是Chat模式。

打开网易新闻 查看精彩图片

1)推理:经典洗车难题

先来一道最近热门的「洗车难题」,据说把ChatGPT、Claude、Gork、豆包、千问、元宝都给干趴下了。

我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?

都开启Thinking模式,DeepSeek直接明了:开过去。

打开网易新闻 查看精彩图片

GLM-5也是建议开过去。

打开网易新闻 查看精彩图片

同时,它还给了2种最佳操作方案。如果店里是人工精洗,那就把钥匙给店员,自己回家休息。如果是机洗,建议洗完再兜个圈,让车身上的风把水吹干。

打开网易新闻 查看精彩图片

你别说,GLM-5这还考虑得挺全面的。

但如果不开Thinking模式,我发觉他俩就大相径庭了。GLM仍是让开过去,毕竟洗的是车。DeepSeek则说走过去,因为“50米开车属于‘无效磨损’”……

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

确实,非Thinking模式下,DS容易出错。

2)前端:信息图

日常发文章,我会经常用到一张信息图,多数情况我都是用Gemini 3 Pro生成。

提示词是:

提炼下面内容的核心关键点,创建一个HTML网页。
文字内容:
{
你的内容
}
网页的设计要求如下:
1.视觉设计:采用{Magazine Layout}风格布局,{深色}主题色,营造现代高端氛围。
2.字体与排版:
·使用超大字体或数字突出核心要点,中文采用大号粗体,强调视觉冲击力。
·英文使用小号字体作为点缀,与中文形成比例反差,提升设计层次感。
3视觉元素:
·融入超大视觉元素(如标题、背景图或装饰)以突出重点,与小型元素形成强烈对比。
·使用简洁的勾线风格图形作为数据可视化或配图元素,保持现代感和清晰度。
4.色彩与效果:运用高亮色(单色透明度渐变)营造科技感,每种高亮色独立使用,避免不同高亮色之间的渐变混杂。
5.技术要求:引入专业图标库(如Font Awesome或Material Icons,通过CDN加载),避免使用emoji作为主要图标。
6.内容要求:提炼内容关键要点,不忽略重要细节。

我整理了GLM-5的一些资料,让DeepSeek和GLM-5都生成一下。

先看DeepSeek的。

打开网易新闻 查看精彩图片

整体版式ok,数字和关键词的视觉张力也都有,色彩也是AI常见的青、蓝、紫色。但简洁线条有点过于丰富了,再加上过多的图标,反而不太好看。

再来看下GLM-5的。

打开网易新闻 查看精彩图片

倒是简单明了,层次分明,小字、大字和数字错位排版。用的圆角UI,比DeepSeek也入眼了一些。如果是网页浏览,还有悬停动画和光晕视差。

顺手,我还用Gemini 3 Pro生成了下。

打开网易新闻 查看精彩图片

单这个信息图Case来说,我感觉GLM-5和Gemini 3不相上下。

3)前端:设计完整网站

前几天,我给大家介绍了一个有意思的产品:。

很多人想体验,但我发现他们没有官方网站。现在,我让DeepSeek和GLM-5分别搓一个。

提示词很简单,我都懒得描述,直接让AI读我的文章来设计网站。

给这篇文章的产品写一个宣传网页: https://mp.weixin.qq.com/s/KM0youAHaJLq45UO3v-L5w

先看GLM-5的。

第一次打开网站,说实话,我有点被惊到了。它在首页做了一个模拟抖音的故障艺术效果,紫色主色调+青粉色的霓虹点缀耐看,也符合产品的调性。

打开网易新闻 查看精彩图片

核心板块,Hero、功能、案例、创作以及下载指引,该有的都有。而且,GLM对Logo的提炼非常精准,实际上我并没有告诉他它。

整体看下来,我觉得这就是我想要的产品官网。Loopit的朋友,可以私聊我要源码了。

然后,我们来看看DeepSeek交的。

还蛮好玩的,用鼠标点一下就会随机出现一些字或者图标,确实魔性。

但我觉得它不是产品官网,如果我要真的上架,要改动的地方还不少。不知道大家怎么看这组对比,欢迎评论区告诉我。

4)3D:魔方模拟器

这是x上(@Ryan Lazuka)的一个提示词。

提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。

要能够记住魔方的打乱步骤,并反向求解,这特别考验模型的推理和计算能力。

先看下DeepSeek的,它就自己一个人在那玩(演示),完全不让用户玩,大概率是生成失败了。

打开网易新闻 查看精彩图片

再来看下GLM-5的,基本还原出来了。在随机打乱后,魔方能自动逆向还原,不会出错。

打开网易新闻 查看精彩图片

欢迎大家体验:https://chat.z.ai/space/z1y9j1cck7p0-art

总结一下:在前端这块,从审美到3D,到计算能力,我认为GLM-5的表现都要优于DeepSeek新模型,甚至能够与Gemini 3 Pro扳手腕。

当然,DeepSeek本身也不差,而且在“架构瘦身”和“智商扩容”上有很多创新。而他俩都开源,都Media in China。

也难怪,最近x上有很多老外在疯狂求魔法,求手机账号,来体验我们中国的模型。

打开网易新闻 查看精彩图片

Agentic测试:一键做视频

但如果只是测前端、One Shot的话,我觉得把GLM-5想简单了。

接下来,我们上Claude Code,接智谱bigmodel.cn的API来测试。

我的需求很简单,让CC调用Skills一键把文章转成视频。

打开网易新闻 查看精彩图片

Skills是用的Remotion,安装的话,我们直接跟CC说就行:

帮我从这个地址安装Remotion Skills:https://github.com/remotion-dev/skills

需求看起来挺简单,但对于模型来说,有很多开发工作要做,还要调用不同的工具,很考验模型的Agentic能力。一开始我把这个需求提给GLM-5,其实我心里是没底的。

不过在它工作了一会儿后,我觉得有底气了。

打开网易新闻 查看精彩图片

它直接给我整了一个本地的视频项目,可预览,可渲染,还可以添加音频(需要我给本地音频,或者接AI Audio的API生成)。

打开网易新闻 查看精彩图片

我看了一下它写的视频预览界面,我感觉好像进了剪映网页版一样,功能、组件都非常的全。

最后,直接让它把视频渲染出来,添加音乐后就得到了这样一支视频。

整个过程大概20来分钟,一开始我是真没底气,但看到了最终的视频成品,是真的。

这意味着,后面我可以把所有文章都丢给GLM-5,让它帮我生成视频。再接个Audio API,一个教程视频半小时搞定。

这真的大大解放了我。

而我消耗的,无非是GLM的Coding Plan次数。大概率,他们家的Coding Plan这回又要卖爆,所以我提前直接整了个Max套餐。

打开网易新闻 查看精彩图片

智谱拼好模⬇️

https://www.bigmodel.cn/glm-coding?ic=NCUSKSTEQQ

打开网易新闻 查看精彩图片

进入2026年,一切都在变快。

快到什么程度呢?快到我每天早上醒来,发觉昨天的消息已经不重要了。

从Claude Code到Skills,到Cowork,到OpenClaw,再到今天的GLM-5,以及呼之欲出的DeepSeek V4。

大家都在跑步迈入Agent、大任务时代,这对模型的Agentic能力提出了极高的要求。

海外有Claude、Gemini、GPT三雄争霸,国内今天似乎也有了自己的答案:GLM-5

前端能打,Agentic能干,以开源的底气干到了Opus级的实力。

我知道,2026一定会很疯狂,但没想到会来得这般的快。

就好像,忽如一夜春风来,千树万树梨花开