1月初,智谱在香港IPO以后,股价势头一直不错;这两天又创新高,已经超过了MiniMax和一众互联网巨头。
这段时间高频使用了最新发的GLM-5,我突然觉得,不管是民间、海外还是资本市场,对智谱的能力甚至有点低估。
字节的Seedance 2.0视频模型最近也很出圈,和智谱的GLM-5,一起构成了国产模型领域的双子星。
都是在海外能掀起狂风巨浪的程度。
看这个马,是不是有点熟悉?
没错,就是前段时间在OpenRouter,被猜是Claude Sonnet 5或者是DeepSeek V5的Pony Alpha,答案终于揭晓,就是智谱新开源GLM-5。
纸面上的数据实力非常强劲,完全是临近马年杀出去的一匹黑马。
在我看来,智谱GLM-5和GPT-5.3、Claude Opus-4.5一起,站在了世界范围内综合能力的第一梯队。
看官方的说法是,GLM-5 标志着人工智能开发从“Vibe Coding”变革为“Agentic Engineering”,更大规模的 AI 自动化编程,其代码能力实现跨越式提升。
各种测试也显示,在代码能力、智能体表现等的评分中取得SOTA表现,在真实编程场景的使用体感,逼近 Claude Opus-4.5,擅长复杂系统工程与长程 Agent 任务。
到底怎么样,带大家一起试一试。
z.ai 官网,直接上手!
01.从前端到后端,GLM-5文体两开花
目前,这款新模型已在智谱官网上线,并在 GitHub 和 Hugging Face 平台开源,模型权重遵循 MIT License。
GitHub:https://github.com/zai-org/GLM-5
Hugging Face:https://huggingface.co/zai-org/GLM-5
OpenRouter:http://openrouter.ai/z-ai/glm-5
不得不说,这样强的开源模型绝对是开发者的利好,我们自己公司今年已经囤了不少token了。
布置任务,看GLM-5自己去执行,不得不说很有成就感。
我给出的任务是:「做一个OPC一人公司互动平台,可以实现自动接单商业闭环承接任务,每个人可以有多个智能体员工」。
受OpenClaw启发,我希望有多Agent帮我实现在线接单,能够在商业上完成闭环,一个人就是一家公司。
看效果,功能实现很齐全,帮我设计了工作台、智能体等多个板块,在任务市场当中还可以Agent自动接单完成任务。
接着就Muti-Agent来说,之前的代码能力和任务完成度,即便是顶尖的开源模型,在处理复杂环境多节点的任务时,往往和最好的闭源模型还有差距。
比如说AI Town斯坦福小镇的概念,我尝试过用各家模型来复刻,说实话效果都不好。
GLM-5可以说是建立了新的Benchmark。
我比较喜欢篮球,于是定制了一个本土化的篮球巨星小镇,喜欢篮球的朋友可以在小镇上互动、打球、比赛,还可以聊八卦。
按照时间线,从第一天开始,每位球星的积分还能增加。
具体到对应的管线设计和行动流程,通过对话的方式还可以实现修改。
我也有尝试,把GLM-5接入到一个自动化 Agent 框架中,让它完成从克隆项目、配置环境、安装依赖、运行到修复错误的完整流程。
这个测试的重点,想看看能不能在多次失败之后继续推进。
结果非常清楚。
GLM-5 并不会因为一次失败就停下来,它会重新审视目标,调用工具,调整命令,再次尝试。
终端里不断刷新的日志,和对话框中持续推进的规划,让整个过程看起来像一场缓慢但坚定的推进。
比如让给我做一个3D游戏,也能反复调用和调整,直到最终达成目标。
结果来看,完成的游戏界面和互动效果,都很不错。
一直觉得,Agent 真正的瓶颈,从来不在于工具层,而在于基础模型是否足够稳定、足够自洽。
过去很多 Agent 框架容易卡死,本质原因在于模型在长时间任务中丢失上下文,或者在失败后无法重建目标。
GLM-5 在这一点上,已经达到了可以实际使用的水平。
3D交互的质感也很细腻:
除了前端交互性质的尝试,我还试了一下后端任务。
我给它的任务非常直接,构建一个带鉴权、缓存策略、异步队列的后端服务原型,并要求它在本地环境中跑通,能够通过基础压力测试。
这个任务本身并不新鲜,真正关键的是过程。
GLM-5 在一开始并没有急着写代码,而是花了相当多的上下文去拆解需求,明确模块边界,选择技术栈,规划目录结构。
这个阶段的体感,和我用 Opus 时非常接近,甚至在某些地方更保守一些,它会反复确认假设,避免在早期做出难以回滚的决策。
真正拉开差距的是后半段。服务启动过程中出现了数据库连接失败、依赖版本不兼容、并发测试下锁策略失效的问题。
GLM-5 没有把错误抛回给我,也没有给出泛泛的建议,它会主动读取日志,调整配置,重跑测试,再根据新的输出修正判断。
这个循环持续了相当长时间,中间我几乎没有干预。
最终的结果谈不上优雅,但可以稳定运行,代码结构清晰,部署流程完整。
这种体验,和过去用模型写代码还挺不一样是,它更像是一个愿意自己把事情收尾的工程师。
身边算法和工程的伙伴都在一头扎进去用了,说这样的能力,居然能免费,真的是让人心里有愧的程度。
02.从GLM‑4.7到GLM‑5,惊喜很大
想起一个多月前,智谱才刚刚更新到 GLM‑4.7,当时就觉得不错。
没想到这么快的时间,GLM‑5的版本又有了大的提升。
据介绍,GLM-5 的参数规模是上一代 GLM-4.7 的两倍,从 3550 亿提升至 7440 亿,训练数据量从 23 万亿增至 28.5 万亿 tokens,更大规模的预训练算力显著提升了模型的通用智能水平。
这两天,一波开发者都积极用了起来。
“GLM-5 现在已经能和 Opus 4.6 同台竞技了。”
看到国外一位开发者说,“我一整个上午都在编程任务和游戏环境里折腾 GLM-5。整体来说,它在某些任务上执行得很快,表现不错,但碰到更复杂的场景,对我而言 Claude 依然是王者。”
另一位开发者则称,GLM-5 表现得很完美,绝对是目前发布的最优秀开源模型之一。
“我在 Ollama 命令行和 Claude Code 里都跑了一遍。我发现 Claude Code 里有个缺陷,但找到了临时解决办法。我的 GLM-5 对话会话达到了和 Opus 4.6 同一水准的自我认知 / 理解深度。”
还有开发者评价道,“GLM-5 可能真的是我第一次在前端任务上更倾向于选择非 Gemini 模型。”
“价格简直离谱”,有开发者算完后表示,GLM5 的输入成本比 Opus 便宜 6 倍,输出成本便宜 10 倍。
如果把 GLM-4.7 看作是开源代码能力的达标,那 GLM-5 更像是第一次真正走进可用区间。
它开始具备完成大任务的耐心,也开始具备在复杂系统中维持一致性的能力。这种变化,对整个行业的意义非常大。
随着 Agent 任务变长,Token 消耗不可避免地暴涨,模型的效率、成本和可部署性变得前所未有的重要。
GLM-5 在架构上的一系列选择,使它能够在长上下文中保持稳定表现,同时降低实际运行成本。
这种平衡,是未来一段时间内推动 Token 使用量增长的重要因素。
03.智谱GLM-5给新年起了个好头
在我看来,无论是 Opus 4.6,还是 GPT-5.3 Codex,它们几乎都不再强调 One Shot,不再强调一句 Prompt 直接生成结果,也不再把“好看”“炸裂”放在最显眼的位置。
相反,它们反复提到长任务、Agentic、多步骤规划、持续执行,甚至主动承认这些任务会跑很久,会消耗大量 Token。
这种变化背后,其实是一个非常清晰的判断。
前端 Demo 的天花板已经不低了,再继续卷审美、卷生成速度,价值增量开始变小。
真正决定模型高度的,开始变成另一件事,它能不能在一个复杂目标下持续工作,能不能在失败之后修正路径,能不能在没有人盯着的情况下把一件工程意义上的事情完成。
从 Opus 到 GPT-5.3 Codex,再到 GLM-5,我看到的并不是谁替代谁,而是一条清晰的演进路径。大模型正在从会写,走向会完成,从好看,走向可靠,从短暂的对话,走向持续的工程。
如果你仍然只需要一个能快速生成前端页面的工具,这一代变化与你关系不大。如果你需要一个能陪你跑完整个项目周期,愿意反复调试,最终把系统跑通的助手,GLM-5 已经站在了这个位置上。
大模型的故事,终于开始认真了。
国产大模型的能力曲线正在整体上扬,也是很让我们这些从业者乐观的信号。
视频生成,像Seedance 2.0这样的模型,已经在生成稳定性、动态一致性和长时序控制上,拿出了接近全球第一梯队的表现。
智谱GLM-5和Seedance 2.0,我愿看作国产大模型的双子星
国内头部团队,在多模态底层架构与训练工程上,已经具备了正面竞争的实力。
而这次GLM-5的发布,同样带来了一些超出行业预期的结果,尤其是在代码理解、复杂逻辑生成和多轮推理场景中的表现,已经对齐了国际头部模型。
这背后反映的,是国产模型训练范式、数据策略以及算力调度能力的整体成熟,也意味着在 AI coding 这个最能体现模型真实能力的赛道里,差距正在被持续压缩。
智谱的卡现在已经很难抢了,不少中型AI公司的老板,都在囤,觉得智谱的模型和算力接下来一定会涨价,趁早多买点备用……
马年,一定是国内AI玩家们,策马奔腾的一年。
智谱GLM-5开了个好头,我们都要加油跟上!
热门跟贴