8小时无人值守写出一套Linux，国产开源模型把Claude价格|linux|代码|命令提示符|应用程序|开源模型|管理器

大模型的「残酷月」说来就来。Claude Opus 4.6 刚发布没两天，一天之内被超越两次——早上 Anthropic 自家的 Mythos Preview 在 SWE-bench Pro 上拿下 77.8%，晚上智谱开源的 GLM-5.1 以 58.4% 紧随其后，把 Opus 4.6 的 57.3% 甩在身后。

全球第三，开源第一。没等来 DeepSeek V4，但开源新一哥还是来了，依然是国产。

说实话，我第一反应是：又来了，榜单狂欢。每次发布会都是「史诗级进步」，各家模型在排行榜上各领风骚几小时。这次剧本有什么不同？

真正让我意外的不是跑分，是 GLM-5.1 能工作多久。

智谱放了一个案例：8 小时从零构建 Linux 桌面系统。不是写几个 demo 那种「构建」，是真的从零开始——画架构、写代码、跑测试、修 bug，历时 8 小时整，执行 1200 多步，最后产出一套功能完善的系统。包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库，4.8MB 配套文件。

这相当于一个 4 人团队一周的工作量。全程无人参与测试、审查代码。GLM-5.1 甚至给自己的代码写了回归测试，而且跑过了。

知乎博主 Toyama nao 做了更狠的测试：用 Swift 写 macOS OpenGL 渲染器、用 Flutter 开发全功能聊天软件配 Golang 服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词，每轮 1500-2000 字。

GLM-5.1 成为第一个通过他全部测试的国产模型，也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。他的评价很到位：「不再是前端 only 战神，也不只是 oneshot 样子货，是可以在复杂工况下充当编程主力。」但也提醒：「超长上下文时容易幻觉爆炸，2 轮改不好直接重开，别侥幸。」

去年年底，AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱的技术报告解释了关键突破：以前的模型会在早期快速取得收益后进入瓶颈期，反复尝试已知手段，无法在一条路走不通时主动切换策略。GLM-5.1 的训练目标就是突破这个瓶颈——在固定策略内增量调优，收益停滞时主动分析日志、定位瓶颈，然后跳转到结构性不同的方案。

向量数据库优化是个典型例子。655 次迭代，查询吞吐从 3108 QPS 推到 21472 QPS，提升 6.9 倍。模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由、再到提前剪枝的整套链条。每次跳跃都伴随短暂的 Recall 下降，因为探索新方向时会暂时打破约束，再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

还有一个更有意思的测试：Vending Bench 2。模拟经营一年自动售货机业务，需要长期规划和资源管理。GLM-5.1 最终账户余额 4432 美元，开源模型第一，接近 Claude Opus 4.5 的水平。

技术规格：744B 参数 MoE，每 token 激活 40B，28.5T 训练数据，集成 DeepSeek Sparse Attention，200K 上下文，最大输出 131,072 tokens。

更关键的是：全部使用华为昇腾 910B 芯片训练，没有英伟达 GPU。算力被卡脖子的情况下，国产模型依然做到全球第三、开源第一。

开发者 Beau Johnson 把 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1，体验无差别，成本从 1000 美元砍到 30 美元左右，降低 97%。输入成本是 Claude 的 1/5，输出成本 1/8。接近 Opus 的能力，20% 的价格。

而且它是开源的。MIT License，最宽松的许可证之一。可以改，可以商用，可以做任何事。支持 vLLM、SGLang、xLLM 等主流框架，可以直接本地部署。

当然有问题。推理速度 44.3 tokens/秒，在同类中没优势；复杂任务一小时起步，哪怕 Pro 套餐额度是 Claude 的 15 倍也可能不够用。

GLM-5.1 不是完美的，但这不妨碍它成为一个里程碑。它证明了一件事：算力被卡脖子的情况下，国产模型依然能做到开源第一。而且它是开源的，任何人都可以用，任何人都可以改。

你睡觉的 8 小时，现在可以是 AI 上班的 8 小时了。而且这个 AI，是开源的，是国产的，是任何人都可以用的。