新智元报道
编辑:好困 定慧
【新智元导读】Vibe Coding时代宣告终结!2026年伊始,智谱GLM-5震撼空降,以「智能体工程」重塑游戏规则。用Claude七分之一的地板价,国产模型正面硬刚Opus 4.5!
2月7日深夜,一个代号「Pony Alpha」的神秘模型悄悄上线。
随后,外网炸了。
扔进去一段改了一天都没搞定的「屎山代码」,它顺手重构了架构;输入一段简单的提示,它吐出一个包含35个电台、UI丝滑的完整Web App。
这种极致的工程能力,直接印证了 Andrej Karpathy 几天前的断言:
Vibe Coding已经成为过去,新的游戏规则只有一个名字——
Agentic Engineering(智能体工程)。
紧接着,Opus 4.6与GPT-5.3-Codex 次日深夜「撞车」上线,全篇只谈「长程任务、系统工程」。
就在所有人以为这又是闭源巨头的独角戏时,Pony Alpha的谜底揭晓——
它是GLM-5。
全球第一个站上这条赛道,和硅谷巨头在系统级工程能力上正面硬刚的开源模型。
谜底揭晓后,智谱股价直接暴涨32%!
全球开源第一!
国产模型的「Opus时刻」
在真正上手之后,我们只有一个感受:真的太强了!
如果说Claude Opus代表了闭源模型的巅峰,那么GLM-5的发布,无疑标志着国产开源模型迎来了属于自己的「Opus时刻」。
在权威榜单Artificial Analysis中,GLM-5位居全球第四、开源第一
就在发布当日,10余款由开发者基于GLM-5「手搓」的游戏和工具已同步展出并提供体验,后续这些应用也将陆续登陆各大应用商店。
这意味着,GLM-5正将「AI编程」转化为「AI交付」,真正实现了生产力工具向商业产品的无缝跨越。
体验地址:showcase.z.ai
比如这个名为「Pookie World」的项目。
就是由GLM-5驱动的数字平行世界,通过多层生物-心理框架赋予自主智能体真实的叙事完整性与生命动机。
还有复刻版「我的世界」,这个效果和玩法简直和Minecraft一模一样。
我们也使用Claude Code作为外壳,直接接入GLM-5的API进行了多维度的实测。
无论是Next.js全栈项目,还是MacOS/iOS原生应用,它都能实现从需求分析、架构设计到代码编写、端到端调试的全流程闭环。
做了N个项目,冥冥之中有一种感受:
某种程度上,GLM-5或许是一个能改变行业格局的模型。
· 复杂逻辑挑战:「无限知识宇宙」
如果你觉得写个网页很简单,那试着让AI搞定一个对JSON格式要求极严、且涉及动态渲染的「无限流」项目。
就拿我们最先测试的「无限知识宇宙」来说。
这是一个典型的复杂前后端分离项目,涉及React Flow动态渲染、Next.js API路由设计,以及极其严格的JSON格式输出要求。
对此,GLM-5的表现堪称惊艳。
它不仅一次性完成了整个项目文件结构,更让人惊喜的是它的debug逻辑。
在遇到一个渲染bug时,我们只说了一句「页面还是一片黑,初始化时没有出现第一个内容……」
GLM-5立刻定位到是加载时机的问题,并迅速给出了修正方案。
完整的提示词如下:
- 难点攻克:让模型输出稳定的JSON格式(这是测试模型指令遵循能力的绝佳场景)。· 更复杂的中台项目,11分钟搭建完毕
接下来加大难度,让它开发一个名为「Soul Mirror」的心理分析应用。
需求分为两步:
逻辑设计:扮演荣格心理学专家,输出包含分析文本和视觉参数的JSON。
Step 2
前端实现:根据参数动态渲染SVG,生成塔罗牌风格的卡片。
4.增加一个“保存为图片”的按钮(使用html-to-image库)。整个过程,它展现出的理解力,时常会让人怀疑是不是在用Opus 4.5。
但是看了一眼,确实就是GLM-5。
· 25分钟一镜到底,真正的Agentic Coding
为了更进一步测试GLM-5的能力,我们要求它不使用API,完全模拟真实用户,来制作一个X平台的监控系统。
结果:25分钟,一镜到底。
完整录屏如下:
可以看到,GLM-5会在运行中自主调用各种工具Agent,规划任务、拆解步骤、遇到报错自己查文档修正。
这种长时间维持逻辑连贯性的能力,是以前开源模型不敢想象的。
完成后,一句话即可让GLM-5自动运行项目
· 看图写APP,这还原度真的服了
最后,我们又把一张OpenClaw之父开源项目的截图(一个AI额度统计工具),直接丢给GLM-5:
照这个给我做一个MacOS App。
没一会,它真的「复刻」了一个同款产品出来。
虽然数据是Mock的,但UI布局、交互逻辑几乎完美复刻。
这不仅是视觉理解能力,更是将视觉转化为SwiftUI代码的工程落地能力。
大神手搓:1天复刻「丐版Cursor」
为了验证GLM-5的工程极限,一位资深开发者决定玩把大的:
从零手搓一个带桌面UI的AI编程助手——GLMLIFE。
这相当于要做一个简易版的Cursor。
任务扔给GLM-5后,它没有上来就狂写代码,而是先甩出了一份专业的架构设计文档(PLAN.md),并做出了极其成熟的技术选型:
直接采用了Monorepo架构,将项目精准拆解为三个核心包。
Core:负责Agent核心引擎与LLM适配;
CLI:处理命令行交互;
Desktop:基于Electron + React 18的桌面主程序。
从Zustand状态管理到Tailwind样式方案,再到复杂的IPC进程通信,GLM-5像个带了十年团队的技术总监,把技术选型安排得明明白白。
开发者原本以为要花三天配置环境,结果仅用一天就跑通了从环境搭建、核心逻辑实现到Electron打包的全流程。
打开GLMLIFE的那一刻,你很难相信这是AI在一天内「架构」出来的产物。
GLMLIFE制作迷你钢琴实现过程
为什么它能成为「开源界的Opus」?
放眼全球,Claude Opus 4.6和GPT-5.3-Codex之所以备受追捧,是因为它们具备极强的「架构」能力。
Opus 4.6的暴力美学:16个AI分身自主分工,耗时两周,从零构建了一个包含10万行代码的Rust编译器,通过了99%的GCC压力测试。
GPT-5.3的自我创造:它是OpenAI第一个「参与自身创造」的模型,在「出生」前就已介入训练流程和集群部署。
然而,这一切都有一个致命的前提:它们不仅闭源,而且昂贵。
此时此刻,GLM-5的发布,便是中国开源大模型对Agentic时代的一次暴力破局。
它直接盯着闭源巨头最不想放手的领域——系统级工程能力,做了一次「平替式」的进攻。
1. 新晋「后端架构师」
智谱团队非常清楚,开源界不缺能写Python脚本的模型,缺的是能处理脏活、累活、大活的模型。
GLM-5在训练中大幅强化了后端架构设计、复杂算法实现和顽固Bug修复的权重,并且还实现了极强的自我反思机制。
在编译失败时,它会像一个成熟的工程师一样,自主分析日志、定位根因、修改代码、重新编译,直到系统跑通。
2. 既然是干活,就要算账
比肩Opus的性能,和开源的权重,让GLM-5从某种程度上撼动了Anthropic和OpenAI构建起的围墙花园。
本地部署:它不仅可以在完全隔离的内网中运行,并且还能针对公司的私有框架进行微调,成为最懂自家代码的专员。
成本可控:用户可以用消费级显卡集群跑起一个强力的Coding Agent,不必每运行一次测试都要心疼钱。
屠榜SOTA
GLM-5的这次进化,只能用两个字形容:暴力。
既然是面向复杂系统工程设计的基座模型,那规模肯定要拉满。
参数量从355B(激活32B)一口气干到了744B(激活40B),预训练数据也从23T堆到了28.5T。
除了「大」,还得「省」。
众所周知,Agent跑起来最烧钱的就是Token。
为了解决这个痛点,GLM-5首次集成了DeepSeek Sparse Attention(稀疏注意力)机制。
这让它在处理超长上下文时,不仅能保持「无损」的记忆力,还能大幅降低部署成本。
还有个更狠的「黑科技」——全新的异步强化学习框架Slime。
配合大规模强化学习,让模型不再是「一次性工具」,而是能在长跑中越跑越聪明的「长程选手」。
至于跑分,更是硬核:
代码能力
SWE-bench Verified直接冲到77.8分,Terminal Bench 2.0一举拿下56.2分,都是开源第一。这个成绩不仅超了Gemini 3.0 Pro,更是直接贴脸Claude Opus 4.5。
Agent能力
BrowseComp(联网检索)、MCP-Atlas(工具调用)和τ²-Bench(复杂规划),全线霸榜开源第一。
最有趣的是Vending Bench 2(自动售货机经营测试)。
在这个测试中,模型得完全靠自己经营一年售货机。
您猜怎么着,GLM-5到年底居然赚了4432美元,这水平都快赶上Opus 4.5了。
在开发者最关心的内部Claude Code评估集合中,GLM-5在前端、后端、长程任务等编程开发任务上显著超越上一代的GLM-4.7(平均增幅超过20%)。
真实使用体感已经逼近Opus 4.5。
用AI造AI
当然,GLM-5的野心不止于模型,更在于重构我们手里的编程工具。
全球爆火的OpenClaw让大家看到了AI操作电脑的潜能。
这次,智谱也推出了AutoGLM版本的OpenClaw。
在用原版时,光环境配置就需要折腾半天,现在官网一键部署。
想要个7x24小时帮你盯着推特、整理资讯、甚至写脚本的「数字实习生」?点一下就有了。
同时发布的还有Z Code——
完全基于GLM-5能力诞生的新一代开发工具。
在Z Code里,你只管提需求,模型会自动拆解任务,甚至拉起一堆Agent并发干活:写代码、跑命令、Debug、预览,最后连Git提交都帮你搞定。
甚至,你还可以用手机远程指挥桌面端的Agent干活。
值得一提的是,就像OpenAI用Codex写出了Codex,Z Code本身,也是GLM模型全程参与开发出来的。
国产算力的胜利
在GLM引爆全球流量、Agent需求激增的背后,一群「无名英雄」正默默支撑着海量的计算负荷。
为了确保每一行代码、每一次 Agent 规划都能稳定输出,GLM-5已经深入国产算力的「腹地」,完成了与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等主流平台的深度适配。
通过底层算子级的精细化优化,让GLM-5在国产芯片集群上也能跑出「高吞吐、低延迟」的满血表现。
这意味着,我们不仅有了顶级的模型,还不被卡脖子。
结语
2026年的春天,编程大模型终于脱去了稚气。
Karpathy所谓的「Agentic Engineering」,本质上是对AI提出了一种更严苛的「面试要求」:
以前(Vibe Coding):只要你会写漂亮的HTML,我就录用你。
现在(Agentic Coding):你需要懂Linux内核,懂500个微服务之间的调用关系,懂如何在不炸掉线上的前提下重构代码,还要能自己规划任务、自己修Bug。
GLM-5并不完美。
但在「构建复杂系统」这一核心命题上,它是目前开源界唯一能接住这波「Agentic浪潮」的选手。
Vibe Coding已经结束了。
别再问AI「能不能帮我写个网页」了。那是2025年的事情。
现在,试试问它:「能不能帮我重构这个高并发系统的核心模块?」
GLM-5,Ready to Build!
彩蛋
GLM-5已经纳入Max用户套餐,Pro将尽快在5天内支持!
并且刚刚智谱宣布涨价,今年的Token注定是要涨价的!
赶快去体验吧!
官方API接入
·BigModel开放平台:
https://docs.bigmodel.cn/cn/guide/models/text/glm-5
·Z.ai:
https://docs.z.ai/guides/llm/glm-5
·OpenClaw接入文档:
https://docs.bigmodel.cn/cn/coding-plan/tool/openclaw
开源链接
·GitHub:
https://github.com/zai-org/GLM-5
·Hugging Face:
https://huggingface.co/zai-org/GLM-5
·ModelScope:
https://modelscope.cn/models/ZhipuAI/GLM-5
热门跟贴