看草图直出代码！实测智谱最新多模态Coding模型

智东西

2026-04-03 11:03 ·北京 ·智东西官方网易号

智东西作者江宇编辑漠影

智东西4月2日报道，今日，“国产大模型第一股”智谱发布了其首个多模态Coding基座模型GLM-5V-Turbo，将AI大模型的感知边界从纯文本推到视觉世界。这是继GLM-5-Turbo之后，智谱短时间内在Coding基座模型上的又一次快速迭代。

据官方新闻稿介绍，GLM-5V-Turbo不仅能读懂代码，还能“看懂画面再写代码”。给定一张设计稿截图，它能直接生成完整可运行的前端工程；在接入OpenClaw、AutoClaw等龙虾Agent之后，它也能看懂屏幕、读懂K线图、浏览各类网页，然后自主完成一整套长程任务。

得益于出色的视觉编程性能，GLM-5V-Turbo在海外引发了广泛的关注，截至发稿前，其官方推文已经获得了130万+的浏览量，海外开发者甚至夸张地打趣道：“对Anthropic来说，现在游戏结束了。”

X网友@Zaid表示，“Anthropic现在的处境岌岌可危。”

如今，放眼整个行业来看，GLM-5V-Turbo推出的意义正变得越来越清晰：当Coding模型开始进入真实生产环境，光靠文本确实已经不够用了，而刚刚发布的GLM-5V-Turbo，将为「视觉编程」新范式提供一个全新的启示。

一、上手实测：看见即复刻，图像即代码

说再多不如直接上手。我们用三个实测案例，看看GLM-5V-Turbo在不同输入方式下的前端复刻能力。

案例一：画个草图，也能复刻？

先从最离谱的场景开始，我们只给GLM-5V-Turbo画几个框框，让它做个酷炫的音乐播放器。结果模型还真搞得像模像样，布局合理、配色协调、连播放控件都安排得明明白白，让它改个配色也是言出法随。建议各位产品经理抓紧体验，以后改需求再也不用看前端的脸色了。

案例二：输入网址，直接复刻

这是GLM-5V-Turbo的主打功能之一。因为模型有强大的GUI Agent能力，只要给它一个目标网站URL，它就能自主浏览页面，梳理布局结构、采集视觉素材与交互细节，然后直接生成完整可运行的前端工程。不需要手动截图、不需要描述需求，一个链接就够了。

例如，我们让GLM-5V-Turbo复刻这个颇具设计感的网站：https://niore.webflow.io/

这是复刻效果，可以看到，不论是布局、字体，甚至是插图都非常相似。

案例三：输入录屏，还原动效

将一段网页操作录屏发给模型，GLM-5V-Turbo能从视频中理解页面的动态交互逻辑——滚动效果、弹窗切换、表单联动、按钮反馈等，然后将这些交互细节还原为可运行的代码。不只是”还原长什么样”，而是”还原怎么动”。

我们把这个美食网站的录屏发给GLM-5V-Turbo，让它复刻一下。

▲录屏

可以看到，网站的布局、照片、字体都比较还原，浮现动效和字体特效这类动态细节也基本复刻到位。

▲结果

二、技术探索：不是简单“加了个视觉模块”

与以往传统方法不同，GLM-5V-Turbo不是在一个纯文本Coding模型上“外挂”了一个视觉理解模块，而是从预训练阶段就开始进行文本与视觉能力的深度融合，解决了“视觉能力与纯文本编程和推理能力无法兼得”的问题。

具体来说，智谱团队研发了新一代CogViT视觉编码器，在通用物体识别、细粒度理解、几何与空间感知上均做到了领先水平，同时设计了一套兼容多模态输入且推理友好的MTP结构，在多模态场景下实现了较高的推理效率。

更关键的是，在强化学习阶段，智谱团队采用了30+任务类型的协同优化策略，覆盖STEM推理、视觉grounding、视频理解、GUI Agent等多个子领域。这种多任务协同强化学习的好处在于，它有效缓解了单领域训练容易出现的不稳定性，也就是说，不会因为某一项能力的提升而牺牲其他能力。

而且从评测数据来看，这套方案确实跑通了。

在多模态Coding维度，GLM-5V-Turbo在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现；在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。

而在纯文本Coding维度，GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三项核心测试中保持了稳定表现——也就是说，视觉能力的引入并没有拖累纯文本编程能力。

用一句话总结：GLM-5V-Turbo不是在“看图”和“写代码”之间做取舍，而是“全都要”。

结语：Coding基座模型的下一步，是“看见世界”

从GLM-5-Turbo到GLM-5V-Turbo，智谱在Coding基座模型上的迭代逻辑非常清晰：先让模型在文本世界里把任务跑通，再让它“看见”视觉世界，从而进入更广阔的应用空间。

这背后的判断是：Agent时代，模型能力不只由智能水平定义，还由它能处理的context容量定义。一个只能处理纯文本的模型，哪怕推理能力再强，在真实世界里的应用边界也是有限的。因为真实世界的信息，绝大多数以图片、视频、界面等视觉形式存在。

从这个角度来看，GLM-5V-Turbo不只是智谱的一次产品更新，更像是一个行业信号：Coding模型的竞争，正在从“谁的代码写得好”升级到“谁能看懂世界并写出代码”。

而随着越来越多的Coding模型开始进入真实生产环境，“看得懂、写得出、跑得通”这三项能力的整合程度，将成为区分模型之间差距的关键维度。

这场竞赛，才刚刚进入深水区。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴