悉尼大学与多所顶尖高校联手，让AI的眼睛学会"按需聚焦"|令牌|视觉

这项由悉尼大学、中山大学与香港城市大学联合完成的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.06912，题为《Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models》，感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。

**一、当AI试图"看清一切"，反而什么都看不清**

假设你正在找一份藏在杂乱书桌上的小纸条。你有两种策略：一种是拍下整张桌子的超高清照片，让每一粒灰尘都无所遁形；另一种是先大致扫一眼，确定纸条大概在哪个角落，再凑近仔细看。显然，第二种方式更聪明，因为你不需要为了找一张纸条而把整张桌子的每一寸都放大到极致。

当前最先进的多模态大型语言模型（也就是那种既能看图又能回答问题的AI，比如能读取发票、分析图表、回答"图里的人在干什么"的系统）面临的困境，恰好就是第一种策略的翻版。为了看清图片里的细节，这些模型被迫把整张图拆解成海量的视觉"碎片"（专业上叫视觉令牌），然后让内部的计算引擎逐一审查每一个碎片与每一个碎片之间的关联。这个过程的计算量与碎片数量的平方成正比——碎片翻倍，计算量翻四倍；碎片增加四倍，计算量就爆炸性地膨胀十六倍。

悉尼大学的研究团队用实验数据说明了这种代价有多沉重。以Qwen2.5-VL-7B这个顶尖模型为例，当视觉碎片从512个增加到2048个时，系统处理速度几乎减慢一半，从每秒处理4.6个样本骤降到2.2个。与此同时，许多简单问题——比如"图里的草地是什么颜色"——根本不需要那么精细的分辨率就能准确回答。换句话说，现有系统在绝大多数时候都在做"杀鸡用牛刀"的事，白白浪费了大量计算资源。

研究团队将这个问题概括为两类冗余：一类是"查询级冗余"，即不分场合地对所有问题都调用高分辨率，哪怕问题根本不需要；另一类是"空间冗余"，即对整张图片均匀加高分辨率，哪怕大部分背景区域与问题毫无关系。Q-Zoom框架正是为了同时解决这两类冗余而生的。

**二、前辈们的尝试：要么太慢，要么太耗力**

在Q-Zoom之前，研究者们并非没有尝试解决这个问题，但两条主要路径各有致命缺陷。

第一条路径是"无需训练的启发式方法"，其代表是ViCrop这类工具。这类方法的思路是让AI模型在回答问题之前，先做一次内部"预检"：把问题中的关键词和整张图对比，找出哪些区域最相关，然后裁出那个区域再精细处理。这听起来很聪明，但执行起来有个隐患——为了找出那个相关区域，模型需要先做一次完整的"预回答"，相当于把大半的计算工作做了两遍。实测显示，这类方法反而会把处理速度拖慢到原来的42%甚至更低，比直接暴力拉高分辨率还要慢。

第二条路径是基于强化学习的"带图思考"范式，代表作包括DeepEyes和Thyme。这类模型被训练成一个会"自言自语"的侦探：先用文字推理过程一步步分析"我需要看哪里"，写出一长串分析过程（专业术语叫思维链），再决定裁取哪个区域。这种方式在准确性上确实有提升，但带来了新的麻烦：所有的"思考"都需要逐字逐句地生成，本质上是把计算负担从图像处理转移到了文字生成上。Thyme这类系统的实测推理速度仅有基准模型的21%，也就是说它比直接用原始模型慢了将近五倍。更糟的是，训练这类模型需要海量的标注数据和极其昂贵的强化学习流程，动辄要占用数十甚至数百块顶级GPU运行数周。

研究团队通过横向对比清晰地看到了一个规律：无论是"预扫描两遍"还是"边想边看"，现有方法本质上都是在某个环节做了重复或多余的计算，而没有真正做到"只在需要的地方、只在需要的时候"调用精细感知能力。Q-Zoom的设计目标就是填上这个空白。

**三、Q-Zoom的核心架构：一个轻量级的"智能调度员"**

Q-Zoom的整体逻辑类似于一个经验丰富的图书管理员。当你走进图书馆提出一个问题时，这位管理员会先快速判断：这个问题通过浏览书脊上的标题就能回答，还是需要翻开某本书的某一章？对于前者，她直接给你答案；对于后者，她精准地走到正确的书架，拉出正确的那本书，翻到正确的那一页。整个过程在图书馆的内部完成，不需要把所有书都搬出来铺满地板再慢慢找。

在技术实现上，Q-Zoom由两个轻量级的子网络构成，它们被"嫁接"在已经训练好的、保持冻结状态的基础模型上，不改动原有模型的任何参数。

第一个子网络叫做动态门控网络（Dynamic Gating Network）。在模型开始处理一张图片和一个问题的时候，这个门控网络会接收图片和问题在模型内部的中间层表示，然后输出一个介于0和1之间的概率分数，表示"这个问题需要精细视觉处理的可能性有多大"。如果分数低于预设门槛，系统直接用粗略的低分辨率特征生成答案；如果分数超过门槛，则触发第二个子网络介入。

第二个子网络叫做自蒸馏区域提案网络（Self-Distilled Region Proposal Network，SD-RPN）。它的职责是在模型的内部特征空间里，预测一张热力图，标记出图片中哪些区域与问题最相关。这张热力图经过平滑和二值化处理后，被转换为一个最小外接矩形，也就是"感兴趣区域"（Region of Interest，RoI）的坐标。系统随即从原始高清图片中裁出这个区域，重新编码为精细特征，再把这些精细特征与之前的粗略特征合并，交给语言模型生成最终答案。

整个过程发生在模型处理输入的"预填充阶段"，也就是模型在开始逐字输出答案之前的并行计算阶段。这意味着Q-Zoom不需要任何额外的推理步骤，不产生任何"思考文字"，也不需要运行两次完整的视觉编码流程。

**四、门控网络是如何学会"判断难度"的**

门控网络的训练面临一个微妙的难题：如何给每个问题打上"需要高分辨率"或"不需要高分辨率"的标签，而且这个标签必须准确可靠，不能受到模型自身偶尔犯错的干扰？

直接的做法是：用低分辨率跑一遍，答对了就标"不需要"，答错了就标"需要"。但这种做法有明显缺陷——如果模型答错，可能是因为分辨率不够，也可能是因为模型本身在胡说。这两种情况下都贴同一个标签，会引入大量噪声。

研究团队设计了一套"一致性感知样本生成"机制来解决这个问题。具体做法是：对同一张图片和同一个问题，用一系列从低到高的分辨率（比如64个令牌、128个、256个、512个）依次让模型回答，得到一组答案序列。然后检查这组序列是否符合一个简单的规律：低分辨率下答错，高分辨率下答对，而且这种转变是单调递增的。只有满足这种"单调阶梯型"规律的样本，才被保留为训练数据。那些在低分辨率下偶然答对、高分辨率下反而出错的样本，则被视为噪声丢弃。

这种筛选机制确保了只有"视觉分辨率本身是决定因素"的样本才参与训练，而不是让模型去学习随机的猜测模式。实验结果显示，用这种方式生成的训练数据让门控网络的优化曲线更加平稳，最终收敛到更低的损失值，在推理时的路由决策也更加可靠。

在实际推理时，门控网络处理的是问题最后一个词对应的内部表示向量。由于语言模型内部的注意力机制是单向的，最后一个词自然地聚合了所有前文信息——包括整张图片的粗略特征和问题的完整语义——因此它天然是一个"综合判断"的理想载体。门控网络把这个向量映射到一个0到1的概率分数，这个打分过程的计算量极其微小，几乎不增加任何推理延迟。

**五、SD-RPN是如何学会"精准圈出目标"的**

SD-RPN的核心能力是预测一张热力图，准确标记出图片中与问题相关的像素区域。这种能力通常需要大量的人工标注数据来训练——比如"这张图里的答案位置在左上角那个方块里"——但人工标注不仅昂贵，还难以大规模扩展。

Q-Zoom的解决方案是完全自监督的，也就是说，它让模型用自己的内部"直觉"来生成训练信号，无需任何人工标注。

这里利用了一个关于语言模型内部运作的重要发现：当模型在生成回答的时候，它内部的注意力机制会自然地把注意力集中到与答案相关的视觉区域上。换句话说，模型"心里知道"答案在哪里，即使它没有被明确要求指出来。通过提取这些注意力权重，可以得到一张粗糙的热力图，大致标记出哪些图像区域对回答这个问题是重要的。

然而，原始的注意力图并不干净，主要有两个噪声来源。第一种噪声来自"汇聚令牌"——这是视觉特征中的某些特殊位置，它们会无差别地吸引大量注意力，与问题内容毫无关系，就像一个爱出风头的人在每次会议上都抢着发言，无论议题是什么。研究者发现，这类令牌在特征空间里有一个稳定的特征：它们的特征向量长度（L2范数）异常大。通过设置一个长度阈值，可以识别并过滤掉这些"噪声制造者"。

第二种噪声来自前景与背景边界的模糊性。在过滤了汇聚令牌之后，剩余的注意力分数分布仍然不整洁：高分区域往往确实对应目标，低分区域往往确实是背景，但中间有大量的"灰色地带"——分数不高不低，难以判断是目标还是背景。如果强行把这些模糊区域也纳入训练，会让网络学到错误的分类边界。

研究团队设计了一套"三态标签策略"来处理这个问题。他们只把注意力分数最高的那一小部分令牌（比如前20%）标为正样本（前景），只把这些高分令牌构成的最小包围框之外、且注意力分数最低的令牌（比如最低5%）标为负样本（背景），而把所有落在这两个极端之间的令牌标为"忽略"——在训练时这些位置不计算损失，不强迫网络对它们做出判断。这种策略相当于只用最可信的证据来教网络，而不强迫它在模糊证据上表态。

用这套自生成标签训练出的SD-RPN，其定位精度与用6.8万条人工标注真实边界框训练的版本不相上下，这一对比实验有力地证明了自蒸馏路线的可行性。

**六、让AI同时看全局又看局部：位置编码的精巧设计**

把裁剪出的局部高清区域和原始的全局低清图片同时送给语言模型，会带来一个新麻烦：语言模型需要知道这个局部区域"在哪里"，否则它会把全局图和局部图当成两个完全独立的场景来理解，就像把一张城市全景图和一张街道特写图当成两个完全不同的地方一样。

为了解决这个空间感混乱的问题，研究团队设计了一套连续时空位置编码方案，其核心思想是借助两个维度的坐标信息来帮助模型建立"这块局部区域是全局图的某个子区域"的认知。

在时间维度上，全局图的视觉令牌被赋予时间戳t，而局部RoI的令牌被赋予时间戳t加上一个偏移量δ。这个偏移量被设置为全局图像特征的最短边尺寸。这样一来，模型在内部把RoI理解为"叠加在全局图上方的一个更精细的时间层"，就像电影中的画中画效果，次要画面叠在主画面之上，两者共享同一个空间背景但处于不同的时间帧。

在空间维度上，RoI的每一个令牌都被赋予从全局图坐标系中直接插值出来的空间位置编码。由于RoI区域被重新编码后包含的令牌数量多于它在全局图中对应区域的令牌数量，研究者对全局图的稀疏坐标网格做了插值，生成一个密集坐标网格，确保每个RoI令牌都精确对应全局坐标系中的一个具体位置。

仅有位置编码还不够。预训练好的语言模型从未见过"全局粗略 + 局部精细双流输入"这种形式，突然涌入大量高分辨率局部细节可能会让模型"分心"，反而忽视了全局背景，给出错误的空间推理答案。为了修正这个问题，研究团队构建了一个专项微调数据集：让基础模型和"加了RoI输入但未微调"的版本分别回答同一批问题，用一个AI评判官（同系列更大的模型）来比较两组答案，找出那些基础模型答对而RoI版本答错的样本，大约筛选出7000条这类"退步案例"。然后只用这批精选数据对语言模型的权重进行微调，专门教它如何在双流输入下平衡局部细节和全局背景。视觉编码器和特征映射层在这个阶段保持冻结，只有语言模型本身的参数被更新，从而避免灾难性遗忘。

**七、在多少层切入才最合适：深度与宽度的平衡实验**

SD-RPN和门控网络都需要从基础模型的某一层"接入"，利用那一层的内部特征来做定位预测。接入的层数越深，特征越抽象越有语义信息，但同时留给SD-RPN自身的"处理空间"也越少。接入太浅则特征太原始，定位能力不足。

研究团队在Qwen2.5-VL-7B这个28层的模型上做了系统扫描，固定SD-RPN自身为3层，分别在第3、9、15、18、21层接入，测量性能。结果呈现出清晰的单峰曲线：在第3层接入，各项指标的综合平均为72.8分；随着接入层数加深，性能持续攀升；到第18层达到78.9分的峰值；进一步到第21层则下降到77.4分。这个结果与其他研究组通过"探针实验"（把视觉-语言注意力矩阵提取出来测量其定位精度的方法）发现的规律高度吻合：Qwen2.5-VL-7B的第18层恰好是视觉定位能力最强的层。

在SD-RPN自身深度R的选择上，研究团队在固定接入层B=18的前提下，测试了R=1到4。单层SD-RPN的平均得分为76.2，两层升至78.4，三层达到78.9，四层则小幅回落至77.5。选择3层是在能力和开销之间的最优点。由此确定的配置是B=18、R=3，这一参数在所有实验中保持统一。

**八、实验数据说明了什么：速度与精度的双赢**

Q-Zoom在两大类基准测试上接受了全面检验。第一类是文档理解与文字识别（包括DocVQA、InfoVQA、ChartQA、OCRBench和TextVQA），第二类是高分辨率视觉理解（包括V*、MME-RealWorld和HR-Bench）。

在以Qwen2.5-VL-7B为基础的实验中，Q-Zoom的综合得分在文档类测试上达到85.6分，相比基础模型的81.8分提升了3.8个百分点，同时推理速度是基础模型的0.81倍（基础模型受制于更多视觉令牌，实际吞吐更低）。与训练无关的基线ViCrop相比，Q-Zoom快了将近两倍；与依赖强化学习的AdaptVision相比，Q-Zoom的推理速度高达其十倍以上，因为AdaptVision的吞吐仅为基础模型的6%。

更具说服力的是"帕累托前沿"实验：通过调整Q-Zoom允许使用的最大视觉令牌数，绘制出精度与吞吐量的权衡曲线。在文档类测试上，基础模型在使用4096个令牌时达到85.9分的峰值。Q-Zoom仅用最多1024个令牌就超越了这个峰值，达到86.1分，同时推理速度是4096令牌基础模型的2.52倍，视觉令牌用量减少53%。在高分辨率测试上，这种优势更加悬殊：Q-Zoom用最多576个令牌就达到66.7分，不仅超过基础模型4096令牌时的64.2分，还实现了4.39倍的加速和73.2%的令牌节省。

Q-Zoom对不同基础模型的适配性也经过了验证。在更小的Qwen2.5-VL-3B上，文档类平均得分从76.9提升到82.0，高分辨率平均得分从60.0提升到66.8。在较新的Qwen3-VL-4B上，两项提升分别为3.2和6.8个百分点。在经典的LLaVA-1.5-7B和13B上，文档类平均得分分别提升7.2和8.1个百分点，尽管由于LLaVA原始分辨率较低，门控网络几乎对所有问题都触发了RoI分支，速度提升效果相对有限。

最值得关注的一组实验是把Q-Zoom叠加到已经用强化学习增强过的模型上。ZwZ-Qwen2.5-VL-7B是一个经过专门强化训练、本已具备较强精细感知能力的模型，其高分辨率综合得分为69.3分。在此基础上叠加Q-Zoom后，得分进一步提升到75.9分，增幅6.6个百分点。ZwZ-Qwen3-VL-4B则从72.5分提升到77.7分。这说明Q-Zoom提供的感知增益并不依赖于模型是否已经很强，它能从正交角度补充那些强化训练无法触达的视觉细节处理能力。

**九、用一个具体场景感受Q-Zoom的工作方式**

以论文中展示的TextVQA案例为例。图片是一张赛场边的广告牌照片，问题是"轮胎上方写的是哪个城市"。广告文字在原图中非常微小，大约只占整张图片面积的百分之一。

基础的Qwen2.5-VL-7B在全局低分辨率下处理这张图片，那块细小的文字被大幅压缩，模型"感觉"那里写了什么城市，但字迹已经模糊到难以分辨，于是猜了一个"Pittsburgh"，答案错误。

Q-Zoom的处理过程是这样的：先用512个令牌的粗略分辨率完成初步处理，门控网络给出高概率的"需要精细处理"判断。SD-RPN随即在内部特征空间生成一张热力图，热力图上有一个清晰的高亮区域正好对应广告牌所在位置。系统从原始高清图片中裁出这个区域，重新编码后拼接到原有的特征序列中，语言模型结合全局背景和局部精细特征，准确读出"Philadelphia"。

另一个V*基准的案例是寻找一张杂乱场景图片中某把扫帚的颜色。基础模型猜了"Gray"，Q-Zoom通过热力图精准锁定扫帚位置，裁出局部高清图后正确回答"Black"。这两个案例直观地说明了Q-Zoom解决"分辨率诱导幻觉"的核心价值。

说到底，Q-Zoom做的事情和一个经验丰富的人类专家处理信息的方式完全一致：先整体扫视，判断哪里需要深入，然后只对那个地方集中注意力。这个思路听起来简单，但在AI系统中真正实现它，需要三个精巧的设计缺一不可——能判断问题难度的门控、能精准定位目标的区域提案网络、以及能让局部细节和全局背景和谐共存的位置编码与微调机制。

从实际应用角度看，这项研究的意义在于它大幅降低了"高质量视觉AI"的计算门槛。同样的GPU硬件，在Q-Zoom的加持下，处理文档理解任务的速度可以提升2.5倍以上，处理高分辨率图片的速度可以提升4倍以上，而精度不仅没有下降，反而还有提升。对于需要大规模部署视觉AI的企业来说，这意味着实实在在的服务器成本节约和用户体验改善。

这项研究也让人思考一个更宏观的问题：AI系统是否总需要"看到所有细节"才能做出正确判断？答案显然是否定的，而且人类大脑处理视觉信息的方式早就告诉了我们这一点——眼睛的高分辨率感光区只有视野中心那一小块，其余大部分都是低分辨率的外周视觉，大脑会主动把注意力引导到需要精细处理的地方。AI系统模仿这种"选择性注意力"机制，或许是通往更高效、更像人类感知方式的重要路径之一。

对这个方向感兴趣的读者，可以通过arXiv编号2604.06912查阅完整论文，或者访问研究团队的项目主页获取更多技术细节和演示。

**Q&A**

Q1：Q-Zoom和普通的高分辨率AI视觉模型相比，到底快在哪里？

A：普通高分辨率模型会对整张图片的每个区域都进行精细处理，计算量随分辨率提升呈平方级增长。Q-Zoom引入了两个机制来避免这种浪费：门控网络会先判断问题是否真的需要高分辨率，如果不需要就跳过精细处理；如果需要，SD-RPN只裁取图片中与问题相关的局部区域进行精细编码，而不是处理整张图。在文档理解任务中实测推理速度可提升约2.5倍，在高分辨率场景下可提升约4.4倍。

Q2：SD-RPN的训练不需要人工标注，那它的定位准确性有保障吗？

A：研究团队用实验直接比较了两种训练方式：一种是用自动生成的伪标签（18.5万条），另一种是用6.8万条真实人工标注的边界框。两种方式训练出的模型在综合基准测试上的平均得分几乎相同（分别为78.9和78.0），差距在统计噪声范围内。这个对比实验确认了自蒸馏生成的训练数据质量足够支撑实用级别的定位能力，不依赖昂贵的人工标注。

Q3：Q-Zoom能用在手机或边缘设备上吗？

A：Q-Zoom本身是一个插件式模块，叠加在已有的视觉语言模型上，不改变基础模型结构。论文中验证的模型规模包括30亿参数的Qwen2.5-VL-3B，这个量级已经接近部分高端手机可运行的范围。更重要的是，Q-Zoom通过减少50%到73%的视觉令牌使用量，大幅降低了内存占用和计算需求，客观上为在资源受限设备上运行高质量视觉模型提供了可能性，但论文中并未专门针对手机硬件进行测试。