Claude刚发新模型，国产开源就把桌子掀了|上下文|代码|命令提示符|国产开源|应用程序|桌子|管理器|编程

大模型圈有个老规矩：发布会上的「史诗级进步」，往往活不过24小时。这次Claude Opus 4.6体验了一把什么叫「背景板」——同一天被超越两次，且第二次来自开源阵营。

早上Anthropic放出Claude Mythos Preview，SWE-bench Pro 77.8%的成绩把Opus 4.6的57.3%按在地上。这分数意味着它能像资深工程师一样，在真实GitHub仓库里定位并修复高难度Bug。可惜Mythos Preview暂时不对普通用户开放，热闹是他们的。

但另一边，智谱开源了GLM-5.1。SWE-bench Pro得分58.4%，刚好压过Opus 4.6一头，也超过了GPT-5.4的57.7%。HuggingFace CEO Clement Delangue专门发推：「SWE-Bench Pro上表现最好的模型现在在HuggingFace上开源了！」

全球第三，开源第一。没等来DeepSeek V4，但开源新一哥还是来了，依然是国产。

说实话，我第一反应是又来了，大模型的「榜单狂欢」。每次发布会都是「史诗级进步」，各家模型在榜单上各领风数小时。这次的剧本有什么不同？

看完技术细节后，GLM-5.1最让我意外的不是跑分，是它能工作多久。

智谱有个案例：8小时从零构建Linux桌面系统。不是写几个demo文件那种「构建」，是真的从零开始——画架构、写代码、跑测试、修bug，历时8小时整，执行1200多步，最后产出一套功能完善的Linux桌面系统。包括完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库，4.8MB配套文件。这相当于一个4人团队一周的工作量。

全程无人参与测试、审查代码。GLM-5.1甚至给自己的代码写了回归测试，而且跑过了。

知乎程序员博主Toyama nao做了更狠的测试：用Swift写macOS的OpenGL渲染器、用Flutter开发全功能聊天软件同时用Golang开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑10-12轮提示词，每轮1500-2000字。

结果GLM-5.1成为第一个通过他全部测试工程的国产模型，也是第一个正式超越Sonnet 4.5 Thinking的国产模型。他的评价很直接：「大幅扩展了编程的适应范围，不再是前端only战神，也不只是oneshot样子货，是可以在复杂工况下充当编程主力。」但也补了一刀：「超长上下文时容易幻觉爆炸，如果遇到2轮改不好一个问题，不要抱有侥幸，直接重开。」

去年年底，AI智能体大约只能完成20个步骤。GLM-5.1现在可以完成1700个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱在技术报告里解释了关键突破：以前的模型，包括GLM-5，会在早期快速取得收益后就进入瓶颈期——反复尝试已知的优化手段，但无法在一条路走不通时主动切换策略。

GLM-5.1的训练目标就是突破这个瓶颈。向量数据库优化案例很典型：655次迭代，把查询吞吐从3108 QPS推到21472 QPS，提升6.9倍。模型自己完成了从全库扫描切到IVF分桶召回、引入半精度压缩、加入量化粗排、做两级路由，再到提前剪枝的整套优化链条。每次跳跃都伴随短暂的Recall下降，因为探索新方向时会暂时打破约束，随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

在KernelBench Level 3上，GLM-5.1对50个真实机器学习计算负载进行了超过24小时的不间断迭代，最终取得3.6倍的几何平均加速比，显著高于torch.compile max-autotune模式的1.49倍。模型自主编写定制Triton Kernel和CUDA Kernel，运用cuBLASLt epilogue融合并实施shared memory tiling与CUDA Graph优化，覆盖了从高层算子融合到微架构级调优的完整技术栈。

还有个更有意思的测试：Vending Bench 2。模拟经营一年自动售货机业务，需要长期规划和资源管理。GLM-5.1最终账户余额达到$4,432，开源模型第一，接近Claude Opus 4.5的水平。

技术规格：744B参数的MoE，每token激活40B，28.5T tokens训练数据，集成DeepSeek Sparse Attention降低部署成本，200K上下文窗口，最大输出131,072 tokens。

更关键的是，全部使用华为昇腾910B芯片训练，没有英伟达GPU参与。在算力被卡脖子的情况下，国产模型依然做到全球第三、开源第一。

开发者Beau Johnson把OpenClaw背后的模型从Claude Opus 4.6切换到GLM-5.1，体验无差别，成本从1000美元暴砍至30美元左右，降低97%。输入成本是Claude Opus的1/5，输出成本是1/8。接近Opus的能力，20%的价格。

而且GLM-5.1是开源的。MIT License，最宽松的开源许可证之一。可以改，可以商用，可以做任何事。支持vLLM、SGLang、xLLM等主流推理框架，可以直接本地部署。

当然GLM-5.1也有短板。部分开发者反馈推理速度只有44.3 tokens/秒，复杂任务甚至要一小时起步。哪怕Pro套餐额度是Claude的15倍，也可能不太够用。

这些问题真实存在。GLM-5.1不是完美的，但这不妨碍它成为一个里程碑。

它的意义不在于比Opus 4.6强多少，而在于证明了：在算力被卡脖子的情况下，国产模型依然能做到开源第一。而且它是开源的，任何人都可以用，任何人都可以改。

你睡觉的8小时，现在可以是AI上班的8小时了。而且这个AI，是开源的，是国产的，是任何人都可以用的。