打开网易新闻 查看精彩图片

机器之心编辑部

我们每天都在见证「全球大模型第一股」智谱的历史新高。

打开网易新闻 查看精彩图片

2026 年的春节档,注定将被写入中国 AI 的发展史。

过去半个月,AI 社区被两颗「超新星」彻底点燃:一颗是字节跳动发布的Seedance 2.0,它用震撼的视频生成能力横扫了全球社交网络,代表了 AI 在感性与创意维度的大爆发;而另一颗,则是这几天让开发者们彻夜未眠的智谱 GLM-5

可以说,Seedance 2.0 让世界看到了中国 AI 惊艳的「想象力」,而 GLM-5 则是在向世界展示中国 AI 扎实的「执行力」。

这恰恰构成了 2026 年 AI 赛道的「双子星」格局:一条是通往物理世界模拟的视频航道,一条是通往数字世界构建的 Coding 航道。

在 Seedance 2.0 爆火之后,GLM-5 在 Coding 领域的开源与实战表现,释放了一个极其重要的信号:中国 AI 正在从炫技的青春期,正式迈向成熟稳重的成年期 —— 这就是国产 AI 的「成人礼」。我们不再满足于生成一个漂亮的网页,而是开始真正接管系统内核、重构复杂架构,去解决那些最硬核的生产力难题。

这种跨越级的跃迁意味着中国 AI 终于真正拿到了属于自己的技术王座。而市场对这位「新王」的反应,可以用「狂热」来形容。

自从前天晚上代号「Pony Alpha」的智谱 GLM-5 显露真名以来,其受到的赞誉也被迅速转化成了购买欲,不仅 Ollama、Modal、Poe、硅基流动等诸多平台商提供了 Day-0 支持,智谱官方每天限额的 GLM Coding Plan 即使涨价 30% 也是秒空,没能上车的开发者也只能每天 10:00 蹲点抢。

打开网易新闻 查看精彩图片

甚至就连 Ollama 的云服务也在上线 GLM-5 之后被挤爆了。

打开网易新闻 查看精彩图片

很多没能及时抢到 GLM Coding Plan 名额的开发者大喊:

打开网易新闻 查看精彩图片

这种疯狂的背后,其实是一个信号:开源社区苦「玩具模型」久矣。

既然闭源的 Claude Opus 4.6 和 GPT-5.3 已经证明了 AI 具备系统工程能力,那大家就更受不了手边的开源模型只能写写贪吃蛇、画个 SVG 这种程度的水平了。开发者们在等,等一个开源界真正能干脏活、累活、大工程的「包工头」。

而 GLM-5,似乎就是那个带着安全帽、扛着图纸进场的角色。

别再迷信 Vibe Coding 了

这是「系统工程」的时代

在 2026 年初的今天,AI 编程的门槛已被降至历史最低点。无论是生成一个带有粒子特效的着陆页,还是用 SVG 绘制图标,都已经成为各大模型的基础技能。这种被著名 AI 大牛 Andrej Karpathy 命名为「氛围编程(Vibe Coding)」的开发模式确实能让非技术人员快速上手,产出令人眼花缭乱的 Demo。

这很酷,但对真正的软件工程来说,这远远不够。

前段时间,Claude Opus 4.6 与 GPT-5.3 Codex 的出现,悄然改变了顶级闭源模型的竞争维度。它们不再单纯强调「One Shot」的单次生成效果,转而开始比拼Agentic 能力。这意味着模型需要具备长程规划、多步执行以及处理复杂系统工程的能力

这一次,Karpathy 同样给出了非常不错的总结。他写到:「通过 LLM agent 来编程,正在逐渐成为专业人士的默认工作流,只是伴随着更多的监督和审查。目标是在不牺牲软件质量的前提下,最大化利用 agent 带来的杠杆效应。」

打开网易新闻 查看精彩图片

在此背景下,GLM-5 的发布显得尤为关键。它没有选择继续在「前端审美」这条赛道上与其它优秀的开源模型内卷,转而选择了一条更为陡峭的技术路径:成为开源界首个「系统架构师」级模型。(当然,GLM-5 的前端审美依然非常在线。)

正如著名 AI 研究者 Simon Willison 在博客中评论的那样,GLM-5 可被称为「用 LLM 构建的专业软件工程师」,看到智谱选择「Agentic Engineering」这个词来形容这种范式是「很有意思的」。

这种差异化的定位的直接体现是解决问题的深度。是的,GLM-5 能解决更加困难的系统级问题了!

如果你需要快速搭建一个视觉效果炸裂的网页原型,市场上已有众多模型可供选择。但如果你面对的是后端架构重构、复杂算法实现或是操作系统内核级的开发任务,GLM-5 很可能是目前开源社区的唯一可选项。

口说无凭,我们决定给它上点强度。

我们没有让它写游戏,而是扔给它一个极度硬核的任务:从零构建一个基于 Rust 的高并发分布式算力调度系统。

打开网易新闻 查看精彩图片

从这个提示词可以看出,完成这个任务将需要 GLM-5 具备系统架构级理解与重构、并发模型的理解与掌控、分布式调度与算法设计、Agentic 规划与工程分解、全栈协同、工程防御等多种能力。

如果换做以前的模型,大概率会给你生成一段漂亮的 Python 代码,然后在大并发下直接崩盘。但 GLM-5 的表现,确实让我们产生了一种「坐在高级架构师旁边结对编程」的错觉。

打开网易新闻 查看精彩图片

它没有急着写代码,而是先画图。它否定了单体架构,设计了 Gossip 协议做节点发现,上了 Raft 做共识,甚至考虑到了网络分区时的 CP/AP 取舍。

打开网易新闻 查看精彩图片

在随后的 40 分钟里,看着它用 Tokio 重写异步逻辑,自己处理 Rust 那个让人头大的所有权机制,甚至自己发现编译错误自己修,这种「它真的在思考,而不是在概率匹配」的感觉非常强烈。

打开网易新闻 查看精彩图片

GLM-5 在执行过程中自动验证和修复

最终,它不仅交出了代码,还顺手写了一个防 DDoS 的压力测试脚本。说实话,这种工程防御意识,很多初级人类工程师都未必具备。

打开网易新闻 查看精彩图片

最终结果证明,该架构能够在高压下主动拒绝无效请求,同时保障有效任务的成功率。

打开网易新闻 查看精彩图片

我们还成功尝试了另一个非常有趣的实测案例,让配置了 GLM-5 的 Claude Code 编写了一个全栈式生命游戏。我们使用了这样一个提示词:

打开网易新闻 查看精彩图片

很显然,这个任务既需要 AI 了解算法与数学逻辑,也需要全栈工程架构以及可视化与图形编程能力。

这一次,GLM-5 足足运行了 2 小时 33 分钟,最终得到了这样一个相当复杂的系统:

打开网易新闻 查看精彩图片

同样地,这一次的执行过程也充满了大量验证和修改 —— 就像一个真正的软件工程师,最终给出的结果也是直接可用的。不过由于我们没有在提示词中明确指出,GLM-5 给出的初始结果并没有自动运行能力,但没有关系,我们只是简单增加了一句提示词「增加一个自动运行功能,可以比如一秒前进一步」,GLM-5 仅用 4 分钟就解决了这个问题,给出了让人满意的结果。这是我们以前面的提示词截图为种子运行得到的效果:

打开网易新闻 查看精彩图片

最后,我们还用 GLM-5 构建一个非常实用的标题推荐器。使用我们 2025 年之前的 5086 个标题,我们让 GLM-5 仔细分析后构建了一个标题推荐 Skill。提示词如下:

读取 机器之心文章列表.md,分析里面的所有标题,为我编写一个文章标题推荐 Skill,让我可以贴入文章,让 AI 每次为我建议 10 个不同标题。

最终,我们得到了一个相当不错的 Skill,能为我们推荐 10 个不同风格的标题:

打开网易新闻 查看精彩图片

我们找了一篇近期的文章来实验,效果可以说是出人意料了,有好几个标题都可以直接使用:

打开网易新闻 查看精彩图片

GLM-5 甚至还为我们创建了一个细节到各个关节都能独立运动的人体模拟器:

打开网易新闻 查看精彩图片

从这些项目体验中,我们感受到:开源模型代码能力已经实现了代际跨越。我们相信这也是智谱将 GLM 系列的模型的版本号提升到 5 的底气。

GLM-5 证明了开源模型已经具备了处理复杂任务的能力。它不再仅仅是一个辅助写代码的 Copilot,更像是一个能够独立承担系统级任务的 AutoPilot。对于开发者而言,这意味着在构建高并发电商库存系统、设计 Redis 缓存策略或是处理遗留代码屎山时,终于拥有了一个成本可控且逻辑严密的开源选择。

基于此,我们可以做出这样的判断:GLM-5 标志着开源模型真正做好了迎接 Agentic 大任务时代的准备

为 Agentic Engineering 而生的 GLM-5

GLM-5 从「Vibe Coding」向「Agentic Engineering」的跨越并非偶然。智谱官方披露的技术细节显示,这是一款为稳定交付生产结果而重构的基座模型。

为了提升通用智能水平,GLM-5 将参数规模从上一代的 355B(激活 32B)大幅扩展至 744B(激活 40B),预训练数据量也提升至 28.5T。更关键的是,为了解决大模型在长程任务中 Token 消耗巨大的痛点,GLM-5 首次集成了稀疏注意力(Sparse Attention)机制。这使得模型在维持长文本效果无损的同时,大幅降低了部署成本与推理延迟。

在训练层面,智谱构建了全新的异步强化学习基础设施 Slime 框架。配合异步智能体强化学习算法,GLM-5 能够在海量的长程交互中持续学习。这种大规模强化学习(RL)的介入,正是它能够像资深工程师一样进行自我反思与规划的根本原因。

这些技术突破直接体现在了硬核基准测试成绩上。

代码能力上,在业内公认的主流基准测试中,GLM-5 表现强劲。在全球权威的 Artificial Analysis 智能水平榜单上,GLM-5 位居全球第四、开源第一

打开网易新闻 查看精彩图片

而在 Artificial Analysis 的 Agentic 榜单上,GLM-5 的排名还更加靠前,超过了 GPT-5.2 (xhigh) 和 Claude Opus 4.5,仅次于两个 Claude Opus 4.6,位列全球第三。

打开网易新闻 查看精彩图片

是的,GLM-5 能力上已经比肩昂贵的新版 Claude Opus 和 GPT,但它是开源的。

更具体来看,在 SWE-bench-Verified 和 Terminal Bench 2.0 基准上,GLM-5 分别斩获 77.8 和 56.2 的高分,不仅刷新了开源模型记录,更在性能表现上超越了 Gemini 3.0 Pro,与 Claude Opus 4.5 处于同一梯队。

打开网易新闻 查看精彩图片

Code Arena 分享了一个 SVG 生成结果的对比视频,让我们可以更直观地看到 GLM-5 与 Claude Opus 4.6 和 Gemini 3.0 Pro 相差无几的水平:

打开网易新闻 查看精彩图片

https://x.com/arena/status/2021732547349344690

而在智谱内部的 Claude Code 评估集合上,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的 GLM-4.7(平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务。智谱表示,GLM-5 的「使用体感逼近 Opus 4.5」。

打开网易新闻 查看精彩图片

GLM-5 的长程任务执行能力也达到了 SOTA 级别。比如其在 MCP-Atlas(工具调用和多步骤任务执行)和 τ²-Bench(复杂多工具场景下的规划和执行)等基准上均达到了前沿水平,在 BrowseComp(联网检索与信息理解)上更是有着显著领先优势(超过第二名 8.1 分)。

举个例子,在衡量模型经营能力的Vending Bench 2中,GLM-5 获得开源模型第一表现。该基准要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5,展现出出色的长期规划和资源管理能力。

打开网易新闻 查看精彩图片

这种能力已经开始转化为真实的生产力。

在 OpenRouter 匿名上线 Pony 版本后,我们观察到了一个极具代表性的用户案例:一位开发者使用 GLM-5 端到端开发了一个「学术版抖音」。从开源项目的改造、API 批处理、后端取数逻辑到前端渲染,GLM-5 独立完成了全流程开发。目前,这个 App 已经提交 App Store 申请,即将正式上线。

打开网易新闻 查看精彩图片

为了让更多开发者拥有这种能力,配套的工具链也迎来了重构。

智谱同步推出了 Z Code。这是一个全新的开发环境,用户只需通过自然语言描述需求,模型即可自动拆解任务,并调度多智能体并发完成代码编写、调试、预览及提交。更令人兴奋的是,Z Code 打通了移动端与桌面端的边界,你甚至可以用手机远程指挥桌面端的 Agent,解决那些以往必须坐在电脑前才能完成的工程任务。

此外,针对桌面级自动化任务,AutoGLM 版本的 OpenClaw 也已上线。它就像一个驻留在电脑里的智能实习生,能够 7x24 小时帮助用户完成网页搜索、资讯整理甚至跨应用操作。

GLM-5 的交付能力甚至延伸到了代码之外。它现在可以直接输出产品需求文档(PRD)、电子表格和财务报告等格式文件(.docx、.xlsx、.pdf)。此外,智谱还推出了原生适配 Excel 环境的 AI 插件。可以说,GLM-5 真正实现了从工程开发到文档交付的全流程闭环。

打开网易新闻 查看精彩图片

GLM-5 生成的 .docx 文档

顺带一提,GLM-5 在 AA-Omniscience 基准上的幻觉率也是最低的。

打开网易新闻 查看精彩图片

从底层模型到上层工具,GLM-5 展示了一个完整的 Agentic 生态:它不再满足于在对话框里输出代码片段,而是要接管键盘与鼠标,替人类完成那些繁琐的系统工程。

国产 AI 软硬体系的「会师」

昨天智谱 GLM-5 正式发布后,GLM Coding Plan 的使用量立刻爆满,官方不得不开始限售。不过对于广大 AI 应用的用户来说,算力不足只是暂时的。

一众国产芯片也宣布了对于该模型的 0Day 适配。据介绍,目前 GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

打开网易新闻 查看精彩图片

我们有理由相信,GLM-5 只是一个序章,它证明中国 AI 已经准备好去定义未来。

随着国产算力底座的日益坚实,大模型落地的最后一块拼图已被补齐。接下来的 2026,不仅是技术的角斗场,更是应用生态的爆发年 —— 而这把开启新时代的钥匙,现在就在我们手中。

现在,唯一的悬念就是:扩容后的 GLM Coding Plan,你抢到了吗?

文中视频链接:https://mp.weixin.qq.com/s/YSpqght5O_CzO0-QCoCN1w