智谱甩出200K上下文模型：设计稿直出代码，前端要变天？|上下文|代码|前端|智谱|电子表格|设计稿

一个Figma文件拖进去，完整可运行的前端项目吐出来——这不是概念演示，是智谱AI今天扔出来的GLM-5V-Turbo正在做的事。200K上下文窗口、128K最大输出、支持视频输入，参数堆得狠，但真正的狠活藏在训练方式里：它不是先训好语言模型再外挂视觉模块，而是从第一天就把图像和文字搅在一起学。

智谱给这个路子起了个名：原生多模态预训练。翻译成人话就是，模型看设计稿的方式和人类设计师差不多——不是"识别出这里有个按钮"，而是"这个按钮的圆角半径和主色调需要匹配品牌规范"。

CogViT：给模型换了一双眼睛

视觉编码器CogViT是这套系统的核心基建。传统方案里，图像被压缩成固定长度的向量塞进语言模型，信息损失堪比把4K视频压成240P动图。CogViT的做法更贪心：它让模型在预训练阶段就同时处理像素和token，建立视觉元素与代码语义的原生关联。

具体怎么实现的？智谱没公开完整技术细节，但从公开信息可以拼凑出轮廓。模型采用多token预测机制，推理时一次吐出多个token，速度比逐字生成快出一截。强化学习覆盖超过30种任务类型，从STEM推理到GUI操作，从视频理解到代码生成， essentially是在逼模型成为全能打工人。

训练数据的缺口是个老问题。智谱的解法是一套多级可控验证数据系统，把agent的元技能埋进预训练阶段。换句话说，模型还没正式"上岗"就已经接受过动作预测和执行的基础训练，不是到了推理现场才临时抱佛脚。

工具链的扩展让这套能力从文本延伸到视觉交互。画框、截图、网页读取——这些工具补全了感知-规划-执行的闭环。

跑分好看，但独立评测还在路上

智谱公布的benchmark数据确实亮眼。设计稿转代码、视觉代码生成、多模态搜索、视觉探索——这些专项测试都拿了高分。AndroidWorld和WebVoyager两个真实GUI环境测试里，模型表现同样扎眼。前者测的是安卓系统操作能力，后者考的是网页导航和任务完成度，都是agent落地的硬指标。

纯文本编码任务也没掉链子。CC-Bench-V2的三个核心维度——后端、前端、代码库探索——成绩保持稳定，说明视觉能力的加码没有稀释语言基本功。PinchBench、ClawEval、ZClawBench这些任务执行质量测试同样分数在线。

但这里需要泼点冷水：以上全是厂商自评。独立第三方的评测结果还没出来，实际落地时的延迟、成本、错误率这些工程指标也尚未公开。跑分冠军和生产力工具之间，往往隔着一条叫"产品化"的深沟。

前端工程师的饭碗还稳吗？

GLM-5V-Turbo瞄准的场景很具体：设计师把Figma稿或参考图丢给模型，拿回一个能跑的前端项目。不是半成品，是包含完整项目结构、依赖配置、响应式布局的可执行代码。模型会重建线框结构和功能逻辑，追求高分辨率设计稿的像素级还原。

配合Claude Code这类agent框架，这套流程可以嵌入更复杂的开发工作流。需求评审→设计输出→代码生成→人工Review→部署上线，链条上的"切图仔"环节正在被压缩。

但"像素级还原"这个说法本身值得玩味。设计稿到代码的转换从来不是纯技术问题——交互状态的边界情况、可访问性规范、性能预算、设计系统的版本迭代，这些隐性知识目前还得靠人把关。模型能还原的是视觉层，是"看起来像"，而"用起来对"的验证仍需人工介入。

智谱的定价策略和API细节尚未公布。200K上下文窗口听起来奢侈，但实际调用成本、并发限制、是否支持微调——这些才是决定开发者用脚投票的关键变量。

一个值得观察的信号是：智谱明确提到模型"即插即用"接入Claude Code和OpenClaw。这不是封闭生态的打法，是在主动拥抱已有的agent基础设施。对一家中国AI公司来说，这种开放姿态本身比技术参数更能说明战略取向。

设计稿直出代码的能力，去年还是几家头部实验室的demo专利，今年已经成了基础模型的标配功能。竞争节奏在加快，而真正的分水岭可能不在于"能不能生成"，而在于"生成之后谁来兜底"。当模型开始承诺像素级还原，责任边界也随之模糊——设计走查时发现交互漏洞，算谁的？

智谱甩出200K上下文模型：设计稿直出代码，前端要变天？

CogViT：给模型换了一双眼睛

跑分好看，但独立评测还在路上

前端工程师的饭碗还稳吗？

热搜

热门跟贴

CogViT：给模型换了一双眼睛

跑分好看，但独立评测还在路上

前端工程师的饭碗还稳吗？

热搜

热门跟贴

相关推荐

Claude Code 源码泄露了，有人用Python复刻了一个极简版

鬼手想点谁就点谁？LaSM让GUI智能体把注意力「收回来」

拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

OpenClaw终于长出手和眼！Peter正式发布Peekaboo v3，一日三更

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

13年不写代码，5天花200美元重建400万美元产品——YC掌门人是怎么做到的？

叙利亚重新接入全球支付系统 刷卡机“吐出”小票 现场爆发掌声

公司斥巨资挖来的程序员，老板都不敢惹她，直到有幸看到她的技术

「思考用时100秒」成历史？AI推理太耗时，伯克利整了个大活儿

别再把长文切碎了，HiLight让AI直接在原文里划重点

ChatGPT、豆包集体翻车：AI没有价值观，只有「求生欲」

一汽修店主只修特斯拉：其他新能源车三电不修 怕被告

Codex不只敲代码！教你几分钟全自动搞定视频

太励志！北大表彰多名保安：读研上岸、自学代码守护校园网络

送文件撞破老板秘密，场面瞬间尴尬，我该怎么自救！

小伙刮刮乐中了一百万，中奖当天花了三四百元

AReaL v1.0开源，智能体强化学习「一键接入」

我穿便装到妻子家过年，被厅长大舅哥使唤，警卫员送来文件他腿软

不用写代码也能做个小游戏？实测Hy3 preview 模型

叙利亚重新接入全球支付系统刷卡机“吐出”小票现场爆发掌声

一汽修店主只修特斯拉：其他新能源车三电不修怕被告