注意:图4、图5是 Live Photo,点击左下角按钮播放。

GLM 5.2 正式开源了,测试基准相当吓人。

更惊人的是,不仅官方数据,好几个第三方基准都声称它的能力超过了 Claude Opus 4.8。

这些测试甚至包括 Vercel 的 Next.js 基准、网页设计基准 Design Arena,以及那个靠投票机制的前端基准 Code Arena。

GLM 5.2 主要的升级点包括:

提供了稳定可用的 100 万上下文。
提供了多思考等级,可以平衡推理速度和延迟。
显著提升了在长程任务上的稳定性。

架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 indexer,从而在百万 token 上下文下将每 token 的计算量降低约 2.9 倍。

我也拿两个相对复杂的前端任务试了一下。

这两个任务的要求非常复杂,充满了各种排版和动效细节,但 GLM 5.2 完成得非常不错:

第一个任务是一个具有复杂动效的家具官网:

它生成的动效相当连贯,看得出每个部分都是经过“思考”的。细节非常丰富,尤其是鼠标指针的效果、页面的展开与收起,以及卡片中图片的缓入缓出效果,都做得很好。

第二个任务是生成一个基于 WebGL 效果的 Hero 组件:

主要考验它对 3D 渲染和 WebGL 的使用。我只用文字描述了想要的结果,它处理得非常好。场景和渲染非常细腻,即使在画面不动的时候也有相应的细节效果。

该加的效果它都加上了,没有出现其他模型经常遇到的缺漏或排版问题。

我刷了半天的 Twitter,这应该是第一个国产模型受到这样强的认可。希望他们尽快把算力问题解决一下。

对了,这套图和 Live Photo 也是 GLM 5.2 做的。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片