之前给大家写过很多文章介绍GLM-4.5和GLM-4.6了,对我来说,智谱最近几代模型都是Claude模型的最佳开源平替之一,是性价比极高的选择,他们也是国内最关注Coding领域的大模型公司之一,持续在Coding领域发力,你可以从最近几个模型版本的迭代看出他们的进步。

昨晚,智谱又开源了GLM-4.7,先看官方数据,这次智谱交的答卷确实亮眼。

打开网易新闻 查看精彩图片

几个关键数字:

AIME25考了95.7分,这是数学推理榜单,开源SOTA。

SWE-bench Verified达到73.8%,比GLM-4.6提升了5.8个百分点(这个数据还挺猛)。这个榜单测的是解决GitHub真实issue的能力,开源第一。

HLE(人类终极测验)在使用工具的模式下考了42.8分,甚至超过了GPT-5.1 High模式,说明推理能力和工具调用结合的能力都相当强

还有τ²-Bench(工具调用)87.4分,甚至超过了Claude Sonnet 4.5。

除了官方公布的数据,我还特意去LMArena看了下真实用户的评测对比,发现GLM-4.7不只是妥妥的开源第一,也是超过了GPT-5.2(常规和Medium版本)和Claude Sonnet 4.5,这是上千个用户在盲测情况下给出的评价,我觉得挺值得信任的,说明GLM-4.7在应对不同的编程任务时,都有相当稳定的好表现。

打开网易新闻 查看精彩图片

智谱这次针对Claude Code、Kilo Code、TRAE、Cline、Roo Code做了专项优化,支持"先思考、再行动"的工作模式。说人话就是:它知道自己在干什么,不是无脑输出。

我从昨晚开始就一直在测试,分别用智谱的ChatBot https://chat.z.ai/ 和用API接入Claude Code跑了5个真实案例,我用完的感受是审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平。

五大案例实测

我之前在介绍GLM系列模型的时候,都是把他们接入Claude Code使用的,但这次我发现他们的chatbot https://chat.z.ai/ 也升级了不少,尤其是主页上列出的「AI PPT」「全栈开发」「灵感画布」都明显是针对特定场景优化过的。官方提到他们是增加了Skills工具模块。说白了就是能调用更多工具,处理更复杂的任务。

打开网易新闻 查看精彩图片

所以在这次测试里,我就把前两个任务交给z.ai完成,后面三个任务再用Claude Code + GLM-4.7去做,尤其是最后一个任务,我会去让GLM-4.7去完成我那包含上千字prompt,以及10个以上流程要求的自动化写作工作流,看看他到底能不能完美遵循指令完成。

任务一:制作阿凡达 PPT

我给了个很简单的Prompt:

帮我查找信息深入介绍下《阿凡达》系列,以及他的导演,我要思考下要不要去看这个电影

GLM-4.7的执行流程让我印象深刻,整个过程像是一个"专项优化过的Claude Code"。

它先理解需求,知道我要"深入介绍",不是浅尝辄止。然后开始搜索:《阿凡达》系列电影信息、导演詹姆斯·卡梅隆资料、影评和观众评价。搜完之后会思考,判断哪些信息重要,怎么组织。接着查找高质量的电影海报和导演照片。最后生成PPT:封面、导演介绍、阿凡达1、2、3的介绍、系列特点、观影建议。

整个过程中,GLM-4.7不停地思考、搜索、验证。每一条信息都被用到了实际的PPT中,没有浪费。

生成的PPT质量超出预期。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

版式是16:9宽屏完美适配,没有溢出。这是GLM-4.7的重点优化,以前这是最头疼的问题。配色是深蓝+金色方案,符合电影的科幻氛围,不是那种一眼就看出是AI生成的配色。图片也很赞,自动搜索到高质量的电影海报、导演照片、拍摄花絮,每张图都贴合主题。

内容也不是简单的资料堆砌,而是有逻辑的介绍。信息准确、结构清晰、有深度。

更关键的是,这个PPT可以在网页上直接编辑内容,也可以导出为可编辑的pptx文档。

打开网易新闻 查看精彩图片

我的感受:Agentic能力确实强,给一个模糊的需求,它能自己分解、执行、验证。审美也在线,版式、配色、图片选择都很专业,不需要手动调整。从需求到成品,5分钟搞定。

案例链接:https://chat.z.ai/space/h0hugaszyqv0-ppt

任务二:制作澳大利亚鸟类海报

有加我微信或者关注我即刻的朋友,大概能知道我最近在澳洲有多爱看鸟,澳洲实在有太多有趣又独特的小动物里。

打开网易新闻 查看精彩图片

所以第二个案例,我想让GLM-4.7帮我制作一个关于澳洲鸟类的介绍海报。

这个任务还是在z.ai上执行,这次用"灵感画板"功能。

Prompt:

帮我制作一个吸引鸟类爱好者来澳大利亚旅行的宣传海报

这个任务比PPT更抽象,需要GLM-4.7理解目标受众、设计风格、视觉元素。

GLM-4.7的执行过程和做PPT时一样,像是专项优化过的Claude Code。我知道现在很多人喜欢用Nano Banana Pro去生成海报或者信息卡片的,那确实会是更省事的方式。不过如果要考虑复杂内容中图片的真实和文字的稳定性的话,带Agentic和Coding能力的模型会把这个任务完成得更好。

它先理解需求:目标受众是鸟类爱好者,目的是吸引来澳大利亚旅行,风格要有吸引力、专业感。然后思考设计方案:视觉元素用澳大利亚特色鸟类(葵花鹦鹉、琴鸟、笑翠鸟),配色方案用自然、明亮的色系,排版要重点突出。接着搜索澳大利亚鸟类高清图片、自然风光,验证鸟类品种名称和地理位置。最后生成海报:主视觉、标题、明星鸟种、推荐目的地等。

不停思考、搜索、验证,确保信息准确。

生成的海报质量也很赞。

打开网易新闻 查看精彩图片

主视觉是高质量的澳大利亚鸟类图片,色彩鲜艳、细节清晰。排版的信息层级清晰,视觉动线流畅:标题→主视觉→推荐观鸟地→联系方式,一气呵成。配色是明亮的自然色系,符合"观鸟旅行"的主题,不会太花哨,也不会太单调。文案也不是干巴巴的介绍,而是有感染力的文字。

鸟类品种名称、地理位置都准确,这是Agentic能力的体现。

和PPT一样,海报也可以在网页上直接编辑,或导出高清图片。

我的感受:创意能力很强,从抽象需求到具体设计方案,转化很流畅。审美在线,排版、配色、图片选择都很专业。信息准确性也很高,没有乱编。

案例链接:https://chat.z.ai/space/b0yuzae7svj0-ppt

任务三:制作设计师个人主页

我们再回到Claude Code来测测GLM-4.7 Agentic能力和Coding审美。

下面是我最常用的一段网页设计提示词,包含产品经理→设计师→前端工程师的完整流程,很考验模型对复杂的、结构化的Prompt的遵循能力。

Prompt简化版本如下:

# 1. 你的任务
## 1.1 目标描述
- 根据我的描述,帮我创建一个设计出色,内容丰富,用户体验友好的网站。
- 网站主题:AI工具导航站

# 2. 工作流程

## 作为产品经理执行工作
### 2.1.1 采用逆向工作法,先撰写1000字深入思考过产品的PRFAQ
### 2.1.2 需求洞察,穿透用户表述,补齐显性与隐性需求
### 2.1.3 结构输出PRD文档,明确目标用户、功能、优先级

## 作为设计师执行工作
### 2.2.1 执行设计灵感采样
- 从灵感池中随机采样2位艺术家/设计师
- 给出"灵感 → 网页实现"的转译说明
- 灵感池包含:Josef Müller-Brockmann、John Maeda、Dieter Rams等60+位

### 2.2.2 交互与视觉方案
### 2.2.3 设计系统(色彩、字体、栅格)

## 作为前端工程师完成代码
### 2.3.1 交付完整的 HTML/CSS/JS 代码
### 2.3.2 三断点响应式
### 2.3.3 必须引入真实图片(Picsum等)

完整Prompt大约200行,包含详细的设计原则、代码要求、灵感来源池等。

模型对提示词的遵从性确实非常的好,每一步都是按照我的要求来执行,先完成的产品经理部分的工作,然后又继续设计师的工作,并且按照我的要求对设计风格进行了采用。

打开网易新闻 查看精彩图片

最后实现的结果也非常符合我的预期,在保持简洁的设计师风格的前提下,维持了相当的视觉克制和审美要求,完全不是一眼AI的那种网页。

打开网易新闻 查看精彩图片

任务四:播客App原型设计

长期关注花叔的同学应该都了解,我去做iOS app开发时,最喜欢的一个步骤就是先用AI来帮我生成几套原型。原型一方面是能让自己的想法获得更视觉化地呈现,帮助自己思考想要获得一个什么样的产品。

另一方面也是通过这个步骤,你可以让AI做出好得多的设计,如果你一上来就让AI Coding工具直接写swift代码的话,那做出的产品常常是没法看的。

这个任务我用的Prompt是:

# App 原型设计提示词

## 目标
我想开发一个 {类似小宇宙的播客app},现在需要输出高保真的原型图,请通过以下方式帮我完成所有界面的原型设计,并确保这些原型界面可以直接用于开发:

## 1、用户体验分析
- 先分析这个 App 的主要功能和用户需求,确定核心交互逻辑。

## 2、产品界面规划
- 作为产品经理,定义关键界面,确保信息架构合理。

## 3、高保真 UI 设计
- 作为 UI 设计师,设计贴近真实 iOS/Android 设计规范的界面,使用现代化的 UI 元素,使其具有良好的视觉体验。

## 4、HTML 原型实现
- 使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他开源 UI 组件)让界面更加精美、接近真实的 App 设计。
- 拆分代码文件,保持结构清晰:

### 4.1 页面文件要求
- 每个界面应作为独立的 HTML 文件存放,例如 home.html、profile.html、settings.html 等。
- index.html 作为主入口,不直接写入所有界面的 HTML 代码,而是使用 iframe 的方式嵌入这些 HTML 片段,并将所有页面直接平铺展示在 index 页面中,而不是跳转链接。

### 4.2 真实感增强
- 界面尺寸应模拟 iPhone 15 Pro,并让界面圆角化,使其更像真实的手机界面。
- 使用真实的 UI 图片,而非占位符图片(可从 Unsplash、Pexels、Apple 官方 UI 资源中选择)。
- 添加顶部状态栏(模拟 iOS 状态栏),并包含 App 导航栏(类似 iOS 底部 Tab Bar)。

## 5、交付要求
- 请按照以上要求生成完整的 HTML 代码,并确保其可用于实际开发。

这是一次性得到的效果图:

打开网易新闻 查看精彩图片

设计的原型中包含了首页、播放器、订阅、个人中心、播客详情、搜索等页面,非常完整。这套提示词最早是从Claude 3.7发布的时候开发的。一直到Claude 4时代,模型返回的结果一般都会出些问题,比如部分图片会是裂开的,圆角矩形或者刘海屏效果不好,又或者很多网页根本不会在手机样式的容器内等等。

现在GLM-4.7和Claude Sonnet 4.5提供的感受可以说是完全一致了,一次性完美成功。

任务五:自动化写作

这是最重要的案例。

首先说下这个任务的测试前提是,我在10月份搭建完成了这套Claude Code自动化写作系统,既能写文章,也能帮我写视频脚本、自动整理信息等,详情可以看这篇文章的介绍:

而在文章写作部分,你可以理解为这套agent是搭建在两个嵌套的Claude.md文档基础上的,因为我期望这套现在系统适配的能力越来越多,所以现在这两个claude.md文件分别膨胀到了570行和1212行,非常恐怖。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

但所实现的效果也确实很强,现在已经至少能帮我节省80%以上的写作时间了。

我要交给GLM-4.7的是这么个任务,我早上看到了YouTube上YC做了期关于AI泡沫的视频播客,我希望写篇文章介绍这期视频播客的内容。

打开网易新闻 查看精彩图片

我提供的提示词要求无比简单

我想写一篇介绍这个视频所讨论的内容的公众号文章:https://www.youtube.com/watch?v=cqrJzG03ENE

然后GLM-4.7就开始吭呲吭呲干活了

Phase 1: 视频处理(自动化)

GLM-4.7自动识别出输入的是YouTube视频链接,随后完整执行了视频处理标准流程:下载字幕、提取纯文本、抓取视频信息、内容分析等步骤,准确识别了视频主题、核心议题与主要信息。

Phase 2: 选题讨论

紧接着,GLM-4.7没有直接开写,而是先基于内容提出了两种不同的选题方案,并给出各自的大纲结构及优劣分析,等待用户选择(我选择了“AI泡沫真相”视角的方案A)。

Phase 3: 知识管理

确定选题后,GLM-4.7整理提炼出视频关键信息和议题,形成知识条目,方便后续引用和内容生成。

Phase 4: 风格学习

自动读取参考文档与过往范文,分析吸收目标写作风格和审校要点。

Phase 5: 创作初稿

根据上述整理与风格学习,生成了结构和风格都接近目标的高质量初稿。

Phase 6: 三遍审校

  1. 内容审校:确保文章事实准确、结构合理、逻辑清晰、关键信息完整,不添加无来源内容。

  2. 风格审校:对AI腔、流水线表达等问题逐段优化,让整体语言更自然、更具“人味”。

  3. 细节打磨:修正错别字、句式、节奏等小问题,进一步提升可读性。

整体来看,GLM-4.7完整还原了复杂工作流,分步骤自动完成了视频处理、知识提炼、选题、风格学习、创作与三轮审校,每一步均有对应落地动作和流程细节,除了必要的选题之外,不需要我的额外指令或干预。

可以说,你用GLM-4.7+Claude Code就能搭建出和我相同质量的,属于你自己的自动化写作agent了。

测完这5个案例,有个很明确的感受:GLM-4.7是开源模型的新标杆。

Coding和Agentic能力确实直逼Gemini 3和Claude 4.5。特别是审美提升,让AI生成的内容真的"能用"了,国产开源模型真的起来了。

还有个我想单独提一下的:后端。

这次测试能这么顺利,很大程度上是因为GLM-4.7的后端确实很稳。五个案例里,有四个都是复杂的多步骤任务(特别是最后一个自动化写作,涉及上百次工具调用),整个过程没有任何卡顿或失败。

想给产品加AI功能或者注册/登录能力,只需要把后端接入文档提供给他,基本上也是一次性完成。和之前用过的几个主流模型相比,GLM-4.7在后端稳定性上确实有明显优势。

这点可能不太容易被注意到,但实际用的时候差别很大。

我的建议是:

如果你想做内容创作,比如PPT、海报等,可以试试z.ai。

想做开发,试试Claude Code + GLM-4.7。

对了,我发现智谱主页还在做一个GLM Coding Plan体验卡的活动,我是Pro用户,可以给5个同学送7天体验卡,告诉我你想做什么项目,我会把我的体验卡邀请链接送给前五个回复自己想做的项目内容的同学。

打开网易新闻 查看精彩图片

以及,我发现他们还有个“拼好模”,通过我的二维码注册购买,可以享受额外10%的优惠,以及,我也能回回血,获得一些赠金,用来维持我的Pro订阅,给大家多做做测试的。