打开网易新闻 查看精彩图片

一个Figma文件拖进去,完整可运行的前端项目吐出来——这不是概念演示,是智谱AI今天扔出来的GLM-5V-Turbo正在做的事。200K上下文窗口、128K最大输出、支持视频输入,参数堆得狠,但真正的狠活藏在训练方式里:它不是先训好语言模型再外挂视觉模块,而是从第一天就把图像和文字搅在一起学。

智谱给这个路子起了个名:原生多模态预训练。翻译成人话就是,模型看设计稿的方式和人类设计师差不多——不是"识别出这里有个按钮",而是"这个按钮的圆角半径和主色调需要匹配品牌规范"。

CogViT:给模型换了一双眼睛

CogViT:给模型换了一双眼睛

视觉编码器CogViT是这套系统的核心基建。传统方案里,图像被压缩成固定长度的向量塞进语言模型,信息损失堪比把4K视频压成240P动图。CogViT的做法更贪心:它让模型在预训练阶段就同时处理像素和token,建立视觉元素与代码语义的原生关联。

具体怎么实现的?智谱没公开完整技术细节,但从公开信息可以拼凑出轮廓。模型采用多token预测机制,推理时一次吐出多个token,速度比逐字生成快出一截。强化学习覆盖超过30种任务类型,从STEM推理到GUI操作,从视频理解到代码生成, essentially是在逼模型成为全能打工人。

训练数据的缺口是个老问题。智谱的解法是一套多级可控验证数据系统,把agent的元技能埋进预训练阶段。换句话说,模型还没正式"上岗"就已经接受过动作预测和执行的基础训练,不是到了推理现场才临时抱佛脚。

工具链的扩展让这套能力从文本延伸到视觉交互。画框、截图、网页读取——这些工具补全了感知-规划-执行的闭环。

跑分好看,但独立评测还在路上

跑分好看,但独立评测还在路上

智谱公布的benchmark数据确实亮眼。设计稿转代码、视觉代码生成、多模态搜索、视觉探索——这些专项测试都拿了高分。AndroidWorld和WebVoyager两个真实GUI环境测试里,模型表现同样扎眼。前者测的是安卓系统操作能力,后者考的是网页导航和任务完成度,都是agent落地的硬指标。

纯文本编码任务也没掉链子。CC-Bench-V2的三个核心维度——后端、前端、代码库探索——成绩保持稳定,说明视觉能力的加码没有稀释语言基本功。PinchBench、ClawEval、ZClawBench这些任务执行质量测试同样分数在线。

但这里需要泼点冷水:以上全是厂商自评。独立第三方的评测结果还没出来,实际落地时的延迟、成本、错误率这些工程指标也尚未公开。跑分冠军和生产力工具之间,往往隔着一条叫"产品化"的深沟。

前端工程师的饭碗还稳吗?

前端工程师的饭碗还稳吗?

GLM-5V-Turbo瞄准的场景很具体:设计师把Figma稿或参考图丢给模型,拿回一个能跑的前端项目。不是半成品,是包含完整项目结构、依赖配置、响应式布局的可执行代码。模型会重建线框结构和功能逻辑,追求高分辨率设计稿的像素级还原。

配合Claude Code这类agent框架,这套流程可以嵌入更复杂的开发工作流。需求评审→设计输出→代码生成→人工Review→部署上线,链条上的"切图仔"环节正在被压缩。

但"像素级还原"这个说法本身值得玩味。设计稿到代码的转换从来不是纯技术问题——交互状态的边界情况、可访问性规范、性能预算、设计系统的版本迭代,这些隐性知识目前还得靠人把关。模型能还原的是视觉层,是"看起来像",而"用起来对"的验证仍需人工介入。

智谱的定价策略和API细节尚未公布。200K上下文窗口听起来奢侈,但实际调用成本、并发限制、是否支持微调——这些才是决定开发者用脚投票的关键变量。

一个值得观察的信号是:智谱明确提到模型"即插即用"接入Claude Code和OpenClaw。这不是封闭生态的打法,是在主动拥抱已有的agent基础设施。对一家中国AI公司来说,这种开放姿态本身比技术参数更能说明战略取向。

设计稿直出代码的能力,去年还是几家头部实验室的demo专利,今年已经成了基础模型的标配功能。竞争节奏在加快,而真正的分水岭可能不在于"能不能生成",而在于"生成之后谁来兜底"。当模型开始承诺像素级还原,责任边界也随之模糊——设计走查时发现交互漏洞,算谁的?