这项由清华大学与智谱AI(Z.ai)团队联合开展的研究,于2026年4月29日以技术报告形式发布于arXiv预印本平台,编号为arXiv:2604.26752。报告详细介绍了新一代多模态智能体基础模型GLM-5V-Turbo的核心设计理念、技术突破与实际应用成效,有兴趣深入了解的读者可通过该编号在arXiv上获取完整原文。
一、为什么一个"只会读文字"的AI已经不够用了
长久以来,人工智能助手的主要本领是处理文字——读一段话,写一段话,回答一个问题。但现实世界远不止文字那么简单。当你打开电脑,屏幕上有按钮、图标、图表、照片;当你浏览网页,页面上有图片、表格、视频;当你处理工作文件,里面有公式、截图、设计稿。一个真正有用的AI助手,必须能像人一样同时看懂这一切,并据此做出判断和行动。
GLM-5V-Turbo正是为了解决这个问题而生的。研究团队把这种能力称为"多模态智能体"——所谓"多模态",就是能同时处理文字、图片、视频、网页、文档等各种形式的信息;所谓"智能体",就是能主动规划、执行任务,而不只是被动回答问题。把这两者结合起来,就是GLM-5V-Turbo的核心野心:让AI真正能在真实的数字世界里"看、想、动"。
可以把这个目标理解成培养一名能胜任各种工作的"全能办公室助手"。这位助手不仅要能读懂文件(处理文字),还要能看懂设计图(理解图片),能操作电脑界面(GUI交互),能在网上查资料(使用工具搜索),甚至能写代码、做报告、制作PPT。GLM-5V-Turbo的整个研发过程,就是在系统性地训练这样一位"全能助手"。
二、给AI装上一双真正能看懂细节的眼睛:CogViT视觉编码器
普通人的眼睛不只是拍照片的相机,而是能辨认出一张脸、分清楚两个相似的汉字、感知空间距离的精密仪器。过去的AI视觉系统在这方面往往差强人意——能认出"这是一只猫",但认不出"这只猫比那只猫大两倍",或者"这个按钮在屏幕的左上角还是右下角"。
为了解决这个问题,研究团队专门开发了一个叫做CogViT的全新视觉编码器。所谓"视觉编码器",可以理解成AI的"眼睛处理中枢"——负责把看到的图像转化为AI能理解的信息。CogViT的特别之处在于,它不仅擅长认出"这是什么",还擅长理解"在哪里"和"多大",以及各种精细的细节。
研究团队采用了一种"双师授课"的训练方式来打磨CogViT。在第一阶段,他们让CogViT同时向两位"老师"学习:一位负责教它理解语义(图像的意思),另一位负责教它感知纹理细节(图像的质感和细节)。具体做法是:把图像的35%遮住,让CogViT猜出被遮住的部分应该长什么样——就像玩拼图游戏,练着练着就对整幅图有了深刻理解。训练数据方面,80%是高质量的自然图片,10%是需要遵从指令的图片,10%是科学图像,覆盖面相当广。
第二阶段,CogViT转而学习"图文对齐"——也就是理解文字描述和图像之间的对应关系,就像学习"猫"这个词对应的是哪种动物的样子。这一阶段做了三项重要升级:首先,把固定的图片尺寸改成了灵活可变的尺寸,这样无论图片是横的宽的还是竖的窄的,都能保持原比例处理,不再变形;其次,把训练批次扩大到了64000张图片同时处理,让学习更稳定高效;第三,使用了80亿条中英双语图文数据,让CogViT同时具备中英文理解能力。
训练完成后,CogViT(4.03亿参数)和几个知名的大型视觉编码器(SigLIP2、DFN-H、MetaCLIP2-H,参数量都在4到6亿之间)进行了比拼。结果显示,CogViT在ImageNet零样本识别上达到了83.5%的准确率,在38个CLIP基准测试的平均分上以76.4分领先,在14个通用目标识别基准的平均分上以45.1分位居前列。更关键的是,CogViT在细粒度理解和空间感知上的表现,为整个GLM-5V-Turbo系统后续的高难度任务打下了坚实基础。
三、解决"图片和文字如何在AI大脑里共处"的难题:多模态多词预测
训练好了"眼睛",还有一个棘手的工程问题需要解决:当AI同时处理文字和图片时,怎么保证两者在"大脑"里和谐共存、高效运转?
现代大型语言模型通常有一个叫做"多词预测(MTP)"的设计,可以同时预测接下来的多个词,这样能大大加快生成速度。但当加入图片之后,麻烦来了——图片在AI内部不是用普通的"词语编号"表示的,而是用一大串浮点数(视觉特征向量)表示的。这些视觉特征怎么传递给多词预测模块,成了一个需要仔细设计的问题。
研究团队系统性地比较了三种方案。第一种方案是直接把图片的视觉特征向量传递过去,这听起来最直观,但实际上会带来复杂的工程问题:在大规模分布式训练时,需要跨多台机器传输大量数据,通信负担很重。第二种方案是干脆把图片部分全部屏蔽掉,让多词预测模块只处理文字——这虽然简单,但等于放弃了图片信息的利用。
四、"全科培训"而非"偏科速成":超过30个任务类别的联合强化学习
有了好的"眼睛"和高效的"大脑架构",接下来的关键是如何训练。研究团队在这里做出了一个重要的战略选择:不走"专项突破"的路线,而是全面铺开,同时训练超过30个不同类别的任务。
这30多个任务涵盖了感知、推理和智能体行动三大层次。在感知层面,包括图片中物体的定位(比如"指出图中的猫在哪里")、视频理解、文字识别(OCR)、图表理解、三维空间感知等;在推理层面,包括数学题、逻辑题、科学问题解答等;在智能体行动层面,包括操作图形界面、编写代码、使用搜索工具等。
这种"全科培训"的方式,带来了一系列可以量化的显著提升。与之前的监督微调阶段相比,强化学习阶段在图片定位任务上提升了4.8%,在视频理解任务上提升了5.6%,在三维空间定位上提升了7.7%,在文字识别上提升了4.2%,在图表理解上提升了7.7%,在数学和逻辑推理上提升了约1.8%,在图形界面操作任务上提升了4.9%,在代码生成任务上提升了0.2%,在综合工具使用上提升了3.5%。
更有意思的是,研究团队在这个过程中观察到了一些规律性现象,对整个AI训练领域都有参考价值。
第一个现象是:强化学习比监督微调更不容易造成"顾此失彼"。用监督微调(SFT)的方式,往往是训练好了A技能就会影响B技能;但用强化学习(RL)训练多个任务,多个任务往往可以同时稳定提升,相互干扰更少。
第二个现象是:多任务联合训练能让单个任务学得更稳。那些数据量较少、单独训练容易震荡不稳定的任务,放到多任务联合训练中反而变得更稳定——因为其他任务的存在给模型提供了更丰富的策略空间,避免它在某个小任务上"钻牛角尖"。
第三个现象是"思维迁移":在某个领域学到的推理方式,有时候能自然迁移到另一个领域,产生意外的正面效果。比如,在界面截图转代码的任务上训练,能够支撑更复杂的多轮代码编写能力。
第四个现象是一个警示:强化学习覆盖不到的任务,有时候会在训练后性能下降。原因可能是随着强化学习的推进,模型的"注意力"和"思维模式"越来越集中在被训练的任务类型上,对完全不相关的任务产生遗忘效应。这意味着,选择哪些任务加入强化学习的覆盖范围,本身就是一个需要认真规划的决策。
五、训练几十个任务的"后勤保障":大规模多模态强化学习基础设施
要同时训练几十个不同类型的任务,还要用到图片、视频等多媒体内容,背后的工程挑战是巨大的。研究团队专门对训练基础设施进行了系统性重新设计,从四个维度入手解决工程难题。
第一个维度是统一任务和奖励管理。不同任务需要不同的"评分方式"——有些任务可以用规则直接判断对错(比如数学题答案是否正确),有些任务需要另一个AI模型来评判(比如生成的代码是否符合要求)。研究团队构建了一个统一的"VLM强化学习训练场",让所有任务都能在同一套框架下运行,同时设计了独立的奖励评估系统,规则型评估和模型型评估各自运行、灵活组合,不会相互干扰。每个训练样本还会标记来自哪个任务类型,这样就能分别追踪不同任务的学习进展。
第二个维度是流水线解耦和异步重叠。可以把训练过程想象成一个流水线工厂:有的工人负责"生产样本"(推理生成),有的工人负责"质检"(奖励计算),有的工人负责"打包运输"(批次构建和参数更新)。传统做法是这些工人必须按顺序工作,前一步完成才能开始下一步。研究团队改造后,让这些环节尽可能并行:质检可以在生产的同时进行,打包运输可以和其他环节重叠,甚至那些迟迟没有完成的"长尾样本"也有专门的提前终止和缓存复用机制,不会拖累整条流水线。
第三个维度是针对多媒体内容的精细内存管理。图片和视频会消耗大量的GPU内存,如果不加控制,随着处理图片数量的增加,内存会线性爆炸。研究团队为处理视觉内容的模块设计了专门的内存管理策略,结合"按需重新计算"和"临时卸载到CPU内存"两种方式,在保持计算效率的同时大幅降低了运行时的内存压力。
第四个维度是感知拓扑的智能分配和动态负载均衡。处理长视频时,不同样本的序列长度差异可能非常大,如果简单地平均分配计算任务,有些计算节点会忙得喘不过气,而另一些却在闲等。研究团队把数据分割的工作提前到数据加载阶段,并通过异步的全局通信机制,让每个计算节点只接收它真正需要处理的那部分数据。此外还实现了"联合装箱"——把序列长度和视觉内容量两个维度都考虑进来,尽量让每个批次在计算量和内存占用上都保持均衡。这些改进使得大规模多模态强化学习训练在工程上变得切实可行。
六、从"会看图"到"能干活":多模态工具链的全面扩展
训练好的模型如果只能回答问题,还远远不够。现实世界中,真正有用的"全能助手"需要能主动使用各种工具——就像一个聪明的人类员工,不只是靠脑子想,还会用手机查资料、用Excel算数据、用相机拍照片。
GLM-5V-Turbo为此构建了一套系统性的多模态工具集,按照使用场景分为三大类。
通用场景工具涵盖了识别类、搜索类、浏览器类和图像处理类。识别类工具能认出植物(zai_recognize_plant)、识别地点(zai_recognize_location)、辨别人物(zai_recognize_person);搜索类工具支持文字搜索网页、以图搜图、搜索学术文献等多种方式;浏览器类工具能从URL加载图片、读取网页内容;图像处理类工具则能裁剪图片、在图片上标注边界框、标记点位、绘制几何图形、绘制三维边界框,乃至追踪视频中的运动物体轨迹。
创作场景工具分为网页创作和幻灯片创作两类,支持从生成网页大纲到输出完整HTML代码的全流程,以及从规划PPT结构到生成幻灯片的一站式创作。
深度研究工具是最具特色的一类,包括在沙箱环境中运行Python代码、以多模态方式打开URL并读取其中的图片、访问图片内容、执行搜索、搜索图片资源,以及用"以图搜图"的方式进行图像溯源。所有以"zai_"开头的工具是智谱AI自研的专有工具,同时GLM-5V-Turbo也保持了与用户自定义工具的兼容性。
有了这套工具链,GLM-5V-Turbo就能在真实任务中展现出"先看、再想、再动"的完整工作循环。比如复现一个真实网站时,模型可以先用GUI智能体工具截图探索目标网站的布局和交互方式,理解清楚后再用UI转代码的能力重建页面,如果需要用到原网站的图片素材,还能直接用图像工具裁取并嵌入输出结果。整个过程不需要人类介入,完全自主完成。
这套工具链的实际效果也体现在了基准测试上。与上一代模型GLM-4.6V相比,GLM-5V-Turbo在复杂多模态任务上取得了大幅度进步:在MMSearchPlus(测试模型在网络上进行多模态搜索的能力)上得分30.0,是上一代得分的近八倍;在BrowseComp-VL(测试模型浏览网页并提取深层视觉信息的能力)上得分51.9,在ImageMining(后文详细介绍)上得分30.7。
七、把AI接入真实工作流:与Claude Code和AutoClaw的深度整合
一个能力强的AI模型,还需要能无缝融入真实的工作环境。研究团队把GLM-5V-Turbo接入了两个当前最流行的AI工作框架:Anthropic公司的Claude Code和智谱AI自研的AutoClaw。
Claude Code是一个专注于软件开发的AI助手框架,让AI能在终端环境和本地文件系统中执行代码、管理文件、解决工程问题。把GLM-5V-Turbo接入Claude Code之后,模型就不再只是"说说代码该怎么写",而是能真正看懂终端输出的错误信息、理解文件结构截图,成为一个能实际操作的系统级合作者。
AutoClaw则是专注于浏览器操作和图形界面自动化的框架,相当于给AI装上了一双能操作鼠标和键盘的"手"。GLM-5V-Turbo在AutoClaw中承担的角色是"视觉语言控制器"——它的眼睛和大脑负责理解屏幕上发生了什么,然后指挥AutoClaw的"手"执行点击、输入、滚动等具体操作。
这种三者融合(GLM-5V-Turbo的感知与推理 + Claude Code的代码执行 + AutoClaw的界面操作)构成了一个完整的感知-规划-执行闭环。对于复杂的真实任务,GLM-5V-Turbo不再需要独自承担所有工作,而是作为"认知核心"负责理解和规划,把具体的执行操作交给更专业的工具模块,从而实现更稳健、更高效的任务完成。
八、"带着眼睛去搜索":ImageMining基准测试的诞生
为了衡量多模态智能体在现实任务中的真实水平,研究团队还专门创建了一个全新的基准测试:ImageMining。这个名字很形象——像在矿山里挖矿一样,从图片中深度"挖掘"有价值的信息。
ImageMining与传统的视觉问答测试有本质区别。传统测试往往只需要模型"看一眼图片,回答一个问题"。而ImageMining要求模型主动地、多步骤地使用工具来挖掘图片信息——比如先把图片中某个细小区域放大裁剪,再根据裁剪结果搜索相关信息,再根据搜索结果进一步推理。整个过程就像一个侦探根据现场证据一步一步追踪线索,而不是只靠第一眼印象做判断。
ImageMining包含217个精心设计的测试案例,横跨七个领域:社交媒体、娱乐、商品、地点、富文本、自然和科学。在推理类型上,测试覆盖了五类:精细识别(认出图中特定的动植物或器物)、时空推理(从视觉线索推断地点或时间)、事件推理(理解新闻事件或产品发布背景)、文本推理(读懂图中嵌入的学术论文或报告内容)和视觉搜索(通过以图搜图找到特定的艺术品或图像)。
为了让GLM-5V-Turbo具备这些能力,研究团队构建了一套多阶段的自动化数据管道,核心约束是"视觉跳转"——在生成训练数据时,推理链条中的每一步跳转都必须经过图片,强迫模型真正去分析图片内容,而不是靠文字捷径或背诵的知识来蒙混。此外还专门构建了针对图表、地图、海报等场景的OCR搜索数据,要求模型先识别并裁剪出图中的关键元素,再基于这些元素发起搜索,把图片从静态的"看"变成动态的"探索"。
九、不只是搜资料,还能生成完整的多模态报告
除了回答单个问题,GLM-5V-Turbo还被赋予了完成端到端"深度研究"任务的能力。传统的AI研究助手主要处理文字信息,而GLM-5V-Turbo能同时理解和利用图片、图表、截图等视觉信息,从而访问到那些"只存在于图片里"的关键证据——比如学术论文中的实验图表、产品介绍页面的设计截图、新闻报道中的信息图表。
完成研究之后,GLM-5V-Turbo还能以多种形式输出成果。它可以生成图文交织的深度报告,把搜集到的图片和文字解说有机结合,类似于一篇专业的期刊综述文章;可以把研究成果整理成结构化的幻灯片,自动规划页面布局,平衡文字和视觉内容;还可以生成博客风格的文章或结构化笔记,保留研究发现中视觉证据和文字结论的内在联系。
研究报告中展示的一个具体例子是:给模型一篇学术论文PDF,让它自动生成一个介绍该论文核心内容的网站。模型读取PDF内容,理解论文的结构和关键图表,然后生成一个包含文字介绍和嵌入图表的完整网页——全程无需人工介入。另一个例子是:要求模型比较两个AI智能体系统,并生成一份包含从互联网收集的相关图片的综合报告,模型会自动搜索图片、判断质量、挑选合适的配图,整合进最终输出文档。
十、研究团队总结的三条实践经验
在整个GLM-5V-Turbo的研发过程中,研究团队积累了三条具有普遍指导意义的经验,他们称之为"设计视角"。
第一条经验是:感知能力始终是多模态能力的基石。近年来,AI研究界的关注点越来越转向规划、推理等高层能力,但研究团队发现,即使是当前最强大的视觉语言模型,在精细感知和空间理解上仍然频繁出错,而这些错误往往是更高层错误的根源——问题表面上看是"推理出了错",追根溯源却是"没看清楚"。他们还发现,让模型学会批评自己的感知——比如在训练中加入"找出这段推理中感知错误在哪里"的数据——能有效减少幻觉(AI胡编乱造的现象)。
第二条经验是:智能体能力的培养适合分层进行,而不是一上来就扔给模型最难的长程任务。以图形界面操作为例,研究团队构建了一个从"识别单个界面元素"到"定位操作目标"到"预测单步动作"再到"规划完整操作路径"的多级任务体系,分层训练,逐步提升。这样做的好处是两方面的:低层任务数据更容易收集和标注;而且在底层能力还不扎实的时候,强行堆高层任务往往事倍功半,反而让训练不稳定。
第三条经验是:端到端长程任务要能作为有效的优化目标,关键在于任务定义清晰、验证方法可靠、评估过程受控。现实中很多智能体任务是开放性的,目标模糊,执行边界不清,结果难以评判,这样的任务就算完成了也很难产生可复用的优化信号。研究团队以他们开发的Vision2Web(视觉网站开发)基准为例说明这一点:每个任务不只有一句文字描述,还配有产品需求文档、设计稿、参考页面和资源素材,让任务定义更精确;评估不只看最终结果,而是用基于工作流的验证方式,逐步检查每个依赖步骤的完成情况,让失败原因更容易被定位和分析。
十一、成绩单:GLM-5V-Turbo的实际表现
在一系列基准测试上,GLM-5V-Turbo展现出了与研究目标高度一致的表现格局:多模态任务上成绩突出,文字编程能力得以保留。
多模态编程测试方面,在Design2Code(把设计图转成代码)上得分94.8,超越了同期Claude Opus 4.6(77.3分)和Kimi K2.5(91.3分);在Flame-VLM-Code上得分93.8;在Vision2Web(视觉网站开发)上得分31.0。
多模态工具使用方面,ImageMining得分30.7,BrowseComp-VL得分51.9,MMSearch得分72.9,MMSearchPlus得分30.0(是上一代约八倍),SimpleVQA得分78.2,Facts得分58.6,V*(视觉搜索基准)得分89.0。
图形界面智能体方面,AndroidWorld得分75.7(对比Kimi K2.5的43.1分和Claude Opus 4.6的62.0分),OSWorld得分62.3,WebVoyager得分88.5。
文字编程和Claw框架方面,在CC-Backend上得分22.8(超越了作为其基础模型的GLM-5-Turbo的20.5分),在CC-Frontend上得分68.4,在CC-RepoExploration上得分72.2;在PinchBench(最佳得分)上达到87.0,在ClawEval上得分57.7(Pass@3为75.0),在ZClawBench上得分57.6。
这些成绩表明,增加多模态视觉能力并没有削弱文字编程能力,在某些维度上反而有所提升——这正是研究团队最希望达到的效果:视觉感知不是"额外附加功能",而是作为核心能力融入了整个系统。
十二、诚实面对:还有哪些难题没解决
研究报告难能可贵地坦诚讨论了当前仍然存在的挑战,而不是只展示成功。
第一个挑战是:如何让AI发展出真正新颖的智能体策略,而不只是在人类示范的路径上做微调。目前的训练仍然严重依赖人工筛选的"冷启动轨迹"(也就是人类演示的操作过程),这固然有效,但也从一开始就限定了模型能探索的策略空间。研究团队发现,增加冷启动阶段的轨迹多样性,能让后续强化学习更容易发现更好的方案,这是一个有益的方向。但更根本的目标——让AI完全自主地探索出比人类示范更优的策略,乃至发现"子智能体分工合作"或"多智能体协同"这样更高层次的组织方式——仍然是未解决的难题。
第二个挑战是:多模态内容在长程任务中的上下文管理。图片消耗的"记忆空间"比文字多得多,视频更是如此。当任务轨迹变长,早期的视觉观察往往不得不被丢弃。文字信息可以通过压缩摘要来保留核心内容,但视觉信息的压缩要难得多——空间关系、细节特征、随时间变化的视觉状态,都很难用文字来忠实地概括。现有的记忆机制本质上还是以文字为中心的,面对长程多模态任务力不从心。研究团队明确指出,这需要一种从根本上以多模态为原生设计出发点的记忆和上下文管理机制。
第三个挑战是:模型和运行框架(harness)越来越深度地相互塑造,使得单纯提升模型本身已不足够。任务分解方式、工具调用策略、记忆设计、验证循环——这些属于"框架层面"的设计,都会影响整个系统能做到什么。同一个模型,在不同的框架设计下,表现可能大相径庭。反过来,框架的最优设计也取决于模型当前的能力水平——某些框架设计在模型能力较弱时毫无用处,却在模型跨过某个能力门槛后变得至关重要。这意味着,模型研发和框架研发必须协同进行,不能各自为政。
说到底,GLM-5V-Turbo代表的是AI从"问答机器"向"数字世界工作者"转变过程中的一个重要节点。它证明了把视觉感知真正整合进AI的核心推理能力是可行的,而且整合之后,文字能力不但没有退步,在某些维度上还因为视觉的加持而得到了强化。
归根结底,这项研究最值得关注的不只是那些评测数字,而是它揭示的一个方向:感知是思维的前提,工具是行动的延伸,框架是能力的放大器——把这三者系统性地设计在一起,才能造就真正能在现实世界里工作的AI助手。对于我们普通用户而言,这意味着未来的AI工具将不再需要你把截图转成文字再描述给它听,而是能直接看懂你屏幕上的内容,然后帮你把事情做完。
有兴趣深入了解这项研究所有技术细节的读者,可以在arXiv平台上通过编号2604.26752查阅完整的技术报告,报告公开免费获取。
Q&A
Q1:GLM-5V-Turbo的CogViT视觉编码器和普通的视觉处理模块有什么区别?
A:CogViT是清华大学与智谱AI专为多模态智能体任务定制开发的视觉编码器,核心优势在于不仅能识别"这是什么",还能精准理解"在哪里""有多大""空间关系如何"。它采用了"双师蒸馏"的预训练方式,同时向语义理解和纹理细节两位"老师"学习,并支持可变尺寸图片输入。实测中,它以4.03亿参数量在多个基准上超越了参数量更大的同类模型。
Q2:GLM-5V-Turbo的多模态工具链具体能帮用户做哪些事情?
A:工具链覆盖了三大场景。日常识别与搜索方面,能认植物、识地点、辨人物,支持以图搜图和学术文献检索。创作方面,能自动生成完整网页HTML代码和PPT幻灯片,支持从网址复制网站。深度研究方面,能自主浏览网页截图、读取图文混排内容、运行Python代码,并生成图文交织的综合报告。这些工具可以通过chat.z.ai体验,部分工具以"zai_"前缀调用。
Q3:ImageMining基准测试和普通视觉问答测试有什么本质不同?
A:普通视觉问答通常只需模型"看一眼图回答一个问题",是被动的单步任务。ImageMining则要求模型像侦探一样主动展开多步骤调查:先对图片局部进行裁剪放大,再根据视觉细节发起搜索,再根据搜索结果继续推理,每一步的中间跳转都必须经过图片而非文字捷径。它包含217个案例,跨越社交、商品、科学等七个领域,测试的是真正的"带眼睛思考"能力。
热门跟贴