智东西4月2日报道,今日,“国产大模型第一股”智谱发布了其首个多模态Coding基座模型GLM-5V-Turbo,将AI大模型的感知边界从纯文本推到视觉世界。这是继GLM-5-Turbo之后,智谱短时间内在Coding基座模型上的又一次快速迭代。
据官方新闻稿介绍,GLM-5V-Turbo不仅能读懂代码,还能“看懂画面再写代码”。给定一张设计稿截图,它能直接生成完整可运行的前端工程;在接入OpenClaw、AutoClaw等龙虾Agent之后,它也能看懂屏幕、读懂K线图、浏览各类网页,然后自主完成一整套长程任务。
得益于出色的视觉编程性能,GLM-5V-Turbo在海外引发了广泛的关注,截至发稿前,其官方推文已经获得了130万+的浏览量,海外开发者甚至夸张地打趣道:“对Anthropic来说,现在游戏结束了。”
X网友@Zaid表示,“Anthropic现在的处境岌岌可危。”
如今,放眼整个行业来看,GLM-5V-Turbo推出的意义正变得越来越清晰:当Coding模型开始进入真实生产环境,光靠文本确实已经不够用了,而刚刚发布的GLM-5V-Turbo,将为「视觉编程」新范式提供一个全新的启示。
一、上手实测:看见即复刻,图像即代码
说再多不如直接上手。我们用三个实测案例,看看GLM-5V-Turbo在不同输入方式下的前端复刻能力。
案例一:画个草图,也能复刻?
先从最离谱的场景开始,我们只给GLM-5V-Turbo画几个框框,让它做个酷炫的音乐播放器。结果模型还真搞得像模像样,布局合理、配色协调、连播放控件都安排得明明白白,让它改个配色也是言出法随。建议各位产品经理抓紧体验,以后改需求再也不用看前端的脸色了。
案例二:输入网址,直接复刻
这是GLM-5V-Turbo的主打功能之一。因为模型有强大的GUI Agent能力,只要给它一个目标网站URL,它就能自主浏览页面,梳理布局结构、采集视觉素材与交互细节,然后直接生成完整可运行的前端工程。不需要手动截图、不需要描述需求,一个链接就够了。
例如,我们让GLM-5V-Turbo复刻这个颇具设计感的网站:https://niore.webflow.io/
这是复刻效果,可以看到,不论是布局、字体,甚至是插图都非常相似。
案例三:输入录屏,还原动效
将一段网页操作录屏发给模型,GLM-5V-Turbo能从视频中理解页面的动态交互逻辑——滚动效果、弹窗切换、表单联动、按钮反馈等,然后将这些交互细节还原为可运行的代码。不只是”还原长什么样”,而是”还原怎么动”。
我们把这个美食网站的录屏发给GLM-5V-Turbo,让它复刻一下。
▲录屏
可以看到,网站的布局、照片、字体都比较还原,浮现动效和字体特效这类动态细节也基本复刻到位。
▲结果
二、技术探索:不是简单“加了个视觉模块”
与以往传统方法不同,GLM-5V-Turbo不是在一个纯文本Coding模型上“外挂”了一个视觉理解模块,而是从预训练阶段就开始进行文本与视觉能力的深度融合,解决了“视觉能力与纯文本编程和推理能力无法兼得”的问题。
具体来说,智谱团队研发了新一代CogViT视觉编码器,在通用物体识别、细粒度理解、几何与空间感知上均做到了领先水平,同时设计了一套兼容多模态输入且推理友好的MTP结构,在多模态场景下实现了较高的推理效率。
更关键的是,在强化学习阶段,智谱团队采用了30+任务类型的协同优化策略,覆盖STEM推理、视觉grounding、视频理解、GUI Agent等多个子领域。这种多任务协同强化学习的好处在于,它有效缓解了单领域训练容易出现的不稳定性,也就是说,不会因为某一项能力的提升而牺牲其他能力。
而且从评测数据来看,这套方案确实跑通了。
在多模态Coding维度,GLM-5V-Turbo在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。
而在纯文本Coding维度,GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三项核心测试中保持了稳定表现——也就是说,视觉能力的引入并没有拖累纯文本编程能力。
用一句话总结:GLM-5V-Turbo不是在“看图”和“写代码”之间做取舍,而是“全都要”。
结语:Coding基座模型的下一步,是“看见世界”
从GLM-5-Turbo到GLM-5V-Turbo,智谱在Coding基座模型上的迭代逻辑非常清晰:先让模型在文本世界里把任务跑通,再让它“看见”视觉世界,从而进入更广阔的应用空间。
这背后的判断是:Agent时代,模型能力不只由智能水平定义,还由它能处理的context容量定义。一个只能处理纯文本的模型,哪怕推理能力再强,在真实世界里的应用边界也是有限的。因为真实世界的信息,绝大多数以图片、视频、界面等视觉形式存在。
从这个角度来看,GLM-5V-Turbo不只是智谱的一次产品更新,更像是一个行业信号:Coding模型的竞争,正在从“谁的代码写得好”升级到“谁能看懂世界并写出代码”。
而随着越来越多的Coding模型开始进入真实生产环境,“看得懂、写得出、跑得通”这三项能力的整合程度,将成为区分模型之间差距的关键维度。
这场竞赛,才刚刚进入深水区。
热门跟贴