当AI看视频遇到"睁眼瞎"困境，如何让机器学会"挑剔"地看视频的？|信号|推理|睁眼瞎|置信度

这项由新加坡南洋理工大学（NTU Singapore）联合明尼苏达大学双城分校（University of Minnesota, Twin Cities）和蔚山科学技术院（UNIST）共同完成的研究，于2026年6月25日以预印本形式发布在arXiv平台，论文编号为arXiv:2606.26904v1。感兴趣的读者可以通过该编号查阅完整论文。

假设你是一名交通执法人员，需要通过行车记录仪的视频认定闯红灯的车辆和车牌号。但问题来了——那段视频里有几帧因为雨天挡风玻璃上的雨刮器抖动而模糊不清，还有几帧被路边一辆大卡车遮住了关键位置，另外夜间迎面来车的大灯照得画面一片惨白。这时候你会怎么办？

一个细心的人会自然而然地跳过那些模糊或被遮挡的画面，专注于那些清晰可辨的帧，把证据建立在看得清楚的图像上。然而，当前绝大多数的视频理解AI系统恰恰缺乏这种"挑剔"的能力——它们会把每一帧画面都当作同等重要的证据来处理，不管这帧画面是清晰的还是一团糊的。这个问题就是这篇论文所提出的"盲目信任问题"（Blind Trust Problem）。

研究团队发现，在真实世界的测试场景中，一些最先进的视频推理AI模型，在遭遇运动模糊、强光眩晕或物体遮挡等常见干扰时，准确率会骤降15到30个百分点——而且这些模型对自己已经"看错了"这件事毫不知情，依然自信地给出答案。为了解决这个根本性的缺陷，研究团队提出了一个名为"Robust-TO"的全新框架，让AI学会像那位细心的执法人员一样，先判断每一帧画面值不值得信任，再决定要不要把它作为推理的依据。

一、当AI遇到"睁眼瞎"：什么是盲目信任问题？

以那位执法人员的故事为线索，可以更清楚地理解这个问题的严重性。现有的视频AI，就像一个被蒙上眼睛后随机打开的人：不管眼前的画面是清晰的商场监控还是大雾天的模糊录像，它都以完全相同的方式处理，不会去判断"这个画面可不可信"。

这种设计在大多数日常场景下问题不大，但在真实世界的关键应用场景里，就成了致命弱点。研究团队在UrbanVideo-Bench这个专门用于城市场景视频理解的基准测试上进行了验证，结果触目惊心：当视频被施加了运动模糊（比如行驶中的车辆拍摄的抖动画面）、高斯噪点（低光环境下的画面颗粒感）、强光眩晕（迎面车灯或阳光直射）、遮挡（路人或障碍物挡住关键区域）、低光照（夜间或昏暗室内）这五种常见干扰之后，主流的视频推理模型的准确率平均下降了15到30个百分点。

更令人担忧的是，这些模型在给出错误答案时，往往还"非常自信"。它们的"自我报告置信度"几乎没有变化，仿佛什么都没有发生。在法庭调查、安防监控或自动驾驶事故复盘这类场景里，这种"沉默的失败"比直接报错更危险——因为使用者根本不知道AI已经在胡说八道了。

二、Robust-TO的核心思路：先当"质检员"，再当"分析师"

Robust-TO框架的设计哲学，正是来源于那位细心的执法人员的工作方式。整个流程可以用侦探破案的比喻贯穿理解：一个好侦探在正式分析证据之前，会先把所有线索按照可信度分类——哪些是清晰的现场照片，哪些是模糊的目击者陈述，哪些是可能被污染的物证。然后，他会把最可信的证据放在最重要的位置，用它来构建核心结论，再用次可信的证据来验证和补充，对于那些根本靠不住的线索，除非别无选择，否则根本不会纳入考量。

Robust-TO就是按照这个逻辑设计的，整个推理过程分为三个环环相扣的阶段。

第一个阶段是"质量画像与帧选择"，相当于侦探对现场证据进行初步分类。这里的关键工具是研究团队设计的一个名为assess_quality的"无参数画质评估工具"——所谓无参数，就是这个工具不需要经过专门训练，它完全依靠图像本身的信号来判断画质好坏，就像用肉眼看照片是否清晰一样直观。

具体来说，这个工具从三个维度来评估每一帧画面的"可信度"。第一个维度是模糊度：通过计算图像的"拉普拉斯方差"（可以理解为画面边缘的清晰程度）来判断，越模糊的画面这个数值越低，就像你把眼镜摘掉后看到的世界——边缘都变成了朦胧的渐变色，细节全部消失。第二个维度是亮度偏差：测量画面的平均亮度是否远离正常值，太暗（比如夜间录像）或太亮（比如强光直射）的画面都会得到较高的"干扰分数"。第三个维度是遮挡程度：通过检测画面中有效边缘信息的占比来估计，被遮挡的画面缺乏丰富的结构信息，就像一张大部分被黑色油漆涂掉的照片。

这三个维度综合起来，给每一帧画面打出一个"干扰分数"——分数越高代表这帧画面越不可信。然后，系统将这个可信度分数与"该帧画面与当前问题的相关性"相乘，得到一个综合评分。打个比方：一帧非常清晰但拍的是路边树木的画面，不如一帧稍微有点模糊但正好拍到了目标车牌的画面有价值。只有那些既清晰又相关的帧，才会被筛选出来，作为后续分析的"可信证据池"。这个筛选过程将原本32帧的视频压缩到平均20.7帧，不仅减少了噪音，还将推理时间缩短了超过35%，同时准确率还提升了1.6个百分点。

第二个阶段是"基于置信度的工具路由"，相当于侦探根据线索的性质选择对应的检测手段。一个案件往往涉及多个问题：嫌疑车辆是什么颜色？什么时候经过红灯区？车牌号是多少？每个问题对应不同的调查手段——颜色要靠目击者陈述，时间要靠时间戳记录，车牌要靠专业的车牌识别技术。把所有问题都交给同一种手段处理，显然是低效且不准确的。

Robust-TO采用的策略是首先将原始问题拆解为多个"原子子问题"（Atomic Sub-queries），每个子问题只针对一种感知能力。比如"这段视频里有什么车辆，它们的位置在哪里"是一个空间定位子问题，"这辆车在视频中如何移动"是一个时间追踪子问题，"路牌上写了什么"是一个文字识别子问题。

接下来，系统根据第一阶段得到的"主导干扰类型"为每个子问题选择最合适的工具。系统拥有一个工具箱，里面包括：detect_objects（目标检测，找出画面中的物体和位置）、caption_frame（场景描述，生成对画面内容的自然语言描述）、track_temporal（时序追踪，跨帧追踪物体运动轨迹）、recognize_action（动作识别，识别视频中的行为事件）、read_text（文字识别，读取画面中的文字信息）等专业工具，每个工具都有各自擅长的场景和弱点。

关键在于：当画面主要受到运动模糊影响时，系统会偏向使用caption_frame而非detect_objects，因为目标检测依赖清晰的边缘信息，模糊画面中边缘消失了，检测效果会急剧下降，而场景描述对清晰度的要求相对更宽容；当画面主要被遮挡时，系统会用recognize_action代替track_temporal，因为追踪需要在连续帧间持续定位目标，一旦目标被遮挡就会丢失，而动作识别更关注整体行为模式。

每次工具调用结束后，都会返回一个"结果加置信度"的配对——不只告诉你"发现了一辆白色轿车"，还会告诉你"这个发现有多可信"。这个置信度是两个因素的乘积：一是工具本身对这个结果有多确定（比如车牌识别工具对字符的识别置信度），二是输入帧的可信度（越清晰的帧，工具的输出越可信）。特别巧妙的是，在计算输入帧可信度时，系统采用了"最差三分之一帧"的保守策略——不是用所有帧的平均值，而是专门盯着最差的那批帧，防止几帧清晰的画面掩盖了大量模糊帧带来的风险。

第三个阶段是"基于可信度分级的视频推理"，相当于侦探综合所有证据作出最终裁决。所有子问题的"结果加置信度"配对汇聚到一起后，系统将它们按置信度分为三档：高置信度（置信度大于等于0.7且画面干扰低于0.3）、中置信度（其余情况）、低置信度（置信度低于0.3或画面干扰高于0.7）。

推理的优先级是：高置信度证据主导结论，中置信度证据仅在与高置信度结论一致时才被采纳，低置信度证据只在完全没有更好证据时作为最后手段，并且最终答案会明确标注"剩余不确定性"。这样的机制确保了：可靠的证据决定结论，不可靠的证据只能"附议"，绝对不能推翻结论。

三、让AI通过"练习"变得更聪明：GRPO训练与奖励设计

仅仅有了这套流程框架还不够——系统里的"主控AI"（Host VLM）需要通过大量实践来学会何时该做什么。研究团队采用了一种叫GRPO（群体相对策略优化，Group Relative Policy Optimization）的强化学习方法来训练这个主控AI，简单说就是：让AI反复尝试解决问题，给做得好的行为正面反馈，给做得差的行为负面反馈，让它在不断试错中学会更好的策略。

训练的奖励信号由四个部分组成，这四个部分共同塑造了AI的"行为准则"。

第一部分是"正确性奖励"：答案对了就加分，答案错了就扣分，这是最直接的反馈。

第二部分是"置信度成本奖励"：这是整个设计中最有创意的部分。其逻辑是：高置信度的输出是有价值的，但获得高置信度往往需要调用昂贵的工具（比如track_temporal的计算成本是read_text的近三倍）。这个奖励项的公式是"置信度减去工具成本乘以惩罚系数"，它鼓励AI在花费最少计算资源的前提下获得最高的置信度。换句话说，如果用一个便宜的工具就能得到可信结果，就不要去调用昂贵的工具——这迫使AI学会"精打细算"。实验证明，去掉这个奖励项，准确率会下降2.3个百分点，因为AI会倾向于总是调用最贵的工具，导致在干扰画面上也强行使用高要求的检测工具，产生自信但错误的答案。

第三部分是"子问题效率奖励"：这个奖励惩罚两种极端情况——把问题分解得太细（浪费工具调用次数）或者分解得太粗（信息不完整）。研究团队用一个单独的"冻结"AI来预测最佳的子问题数量，然后用这个目标值来约束主控AI的行为。为什么要"冻结"这个估算AI而不让主控AI自己估算呢？实验给出了答案：如果让主控AI自己预测目标数量，它会学会作弊——刻意低报目标数量来降低实际的子问题数量，用"改规则"的方式来获得奖励，而非真正提升问题分解的质量。去掉这部分奖励，准确率下降2.1个百分点；用主控AI自估代替冻结估算，准确率下降1.2个百分点，且奖励的方差增大2.3倍。

第四部分是"格式奖励"：确保AI输出符合规定的格式要求，比如工具调用使用JSON格式，这是保证整个流程能正常运行的基础。

四、在真实测试中的表现：数字背后的故事

研究团队在两个公开基准测试上全面验证了Robust-TO的效果，分别是专注于城市室外场景的UrbanVideo-Bench（包含LP地标位置、CF反事实推理、PE进度评估、AG动作生成四个任务）和专注于室内空间推理的VSI-Bench（包含RDist相对距离、RDir相对方向、RP路线规划、AO出现顺序四个任务），共覆盖八个不同维度的视频理解能力。

在干净视频上，以Qwen3-VL-7B为基础模型的Robust-TO取得了56.4%的平均准确率，比谷歌的Gemini-2.5-Pro（46.2%）高出了10.2个百分点，也比经过有监督微调的Qwen2.5-VL-7B（45.8%）高出了10.6个百分点——要知道，Robust-TO使用的基础模型参数量只有70亿，而它在某些任务上甚至超越了大得多的专有系统。在八个任务中，Robust-TO在六个上取得了最佳成绩，尤其在"出现顺序"（77.5%）和"地标位置"（61.1%）这两个需要整合时间跨度大的证据的任务上，优势最为显著。

在干扰视频上，Robust-TO的表现更令人印象深刻。面对五种不同类型的干扰，Robust-TO（Qwen3-VL-7B版本）的平均准确率为54.3%，比最强的开源基准Video-R1（Qwen3-VL-7B版本，48.5%）高出5.8个百分点，比Gemini-2.5-Pro（38.1%）高出16.2个百分点，比GPT-4o（32.2%）高出22.1个百分点。

更重要的是，Robust-TO从干净视频到干扰视频的准确率降幅是所有被比较方法中最小的。用具体数字说话：Qwen2.5-VL-7B原版模型在干净视频上得26.9%，在干扰视频上跌至17.5%，跌幅高达9.4个百分点；同参数量的Robust-TO版本从50.6%跌至47.1%，跌幅只有3.5个百分点。这就是那个核心设计思想的价值：不是让AI在干净视频上无敌，而是让它在遇到"脏"视频时也不会慌乱地胡说八道。

研究团队还通过一系列"控制变量"实验，逐一验证了每个设计决策的必要性。去掉帧选择器，准确率从50.7%跌到49.1%；将"最差三分之一帧"的保守置信度聚合改为全帧平均，准确率从50.7%跌到47.4%；去掉置信度信息，准确率从50.7%跌到43.1%，跌幅高达7.6个百分点——这说明"告诉AI每条证据有多可信"是整个框架中价值最大的设计。用自然语言描述工具的替代方案：将工具选择策略从"固定永远使用同一工具"改为"只根据问题语义选工具"，再到"同时考虑问题语义和画面干扰类型"的完整版，准确率分别提升了10.4和6.1个百分点。

五、一个真实案例：追查闯红灯的车辆

论文中的一个具体案例可以将所有机制串联起来。问题是："哪辆车在路口闯了红灯，它的车牌号是多少？"视频共24帧，同时遭受三种干扰：第4、5、22帧受到迎面车灯眩光影响，第7至9帧和第15至17帧有雨刮器运动模糊，第10至13帧被一辆卡车部分遮挡了路口视野。

普通视频AI的做法是把所有24帧平等对待。它在第10至13帧中看到了模糊的卡车和路口，又受到眩光帧的干扰，最终得出"白色轿车，车牌B8C-394"的错误答案——这个车牌号在模糊帧中根本看不清楚，AI是"猜"的。

Robust-TO的做法则完全不同。质量评估阶段发现第10至13帧的遮挡分数在0.68到0.85之间，属于高干扰帧，即便这几帧与"路口"这个查询关键词有高达0.73至0.80的相似度，系统依然将它们从可信证据池中剔除。最终筛选出的是第14、18、19、3、6、20、21、23帧这八帧画面，都是干扰分数低于0.3的清晰帧。

接着，系统将问题分解为四个子问题：识别交通灯显示什么颜色、检测路口附近的车辆、追踪每辆车的运动轨迹、读取最近车辆的车牌文字。前三个子问题的工具调用结果置信度在0.528至0.785之间，属于中高置信度；第四个车牌读取任务在清晰帧上返回"B-7742-XK"，三帧中有两帧得到一致结果，置信度0.787，属于高置信度证据。

最终，系统整合了三条高置信度证据和一条中置信度证据，给出答案："白色轿车闯了红灯，车牌B-7742-XK，由第14和第18帧的OCR结果确认（字符级置信度大于等于0.89），整体置信度0.72。"这正是正确答案。

六、尚待完善之处：诚实面对局限

研究团队在论文中坦诚地指出了Robust-TO目前的四个局限。第一，画质评估的词汇表仅覆盖模糊、亮度偏差和遮挡三种干扰类型，对于对抗性攻击（故意制造的欺骗性干扰）、语义遮挡（一个无关物体把关键目标挡住了，但画面本身是清晰的）或音视频不同步等情况，目前的质量评估工具无法处理。第二，用于预测最佳子问题数量的"冻结估算AI"本身的能力上限了整个分解策略的质量上限，如果这个AI本身对某类问题的判断不准，训练信号就会有噪音。第三，帧筛选依赖主控AI的视觉编码器，如果这个编码器本身对某类干扰不鲁棒，帧的"相关性排名"就可能失准。第四，在极度干扰的视频上，完整的质量评估加多工具路由加置信度加权合成流程，会带来超过正常5%的额外延迟，在需要实时决策的场景下可能成为瓶颈。

归根结底，这篇论文最核心的贡献，是把一个以前被忽视的问题——"AI看视频时应该怎么对待质量差的画面"——变成了一个有系统解法的工程问题。那位细心的执法人员一直知道应该优先关注清晰画面，但直到Robust-TO，才有AI系统将这个直觉转化成了可以训练、可以量化、可以验证的技术方案。

当AI视频分析被越来越多地用于交通执法、安防监控、自动驾驶事故复盘等高风险场景时，"沉默的失败"是无法接受的。Robust-TO提供的思路——让每一条证据都携带可信度标签，让推理过程的每一步都清楚知道自己在多大程度上依赖了可靠信息——或许是让AI从"不知道自己不知道"到"知道自己不确定"的一次重要跨越。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.26904查阅完整论文，项目主页也在rova-v2.github.io上提供了更多演示案例。

Q&A

Q1：Robust-TO框架是如何判断视频中哪些帧可以信任的？

A：Robust-TO使用一个名为assess_quality的无参数画质评估工具，从模糊度、亮度偏差和遮挡程度三个维度对每一帧进行评分，生成一个"干扰分数"。分数越高代表该帧越不可信。系统随后将可信度分数与帧内容和问题的相关性相乘，综合两个维度筛选出既清晰又相关的帧作为后续推理的依据。

Q2：Robust-TO在处理模糊视频时比普通视频AI好多少？

A：在五种常见视频干扰类型（运动模糊、高斯噪点、眩光、遮挡、低光照）的测试中，Robust-TO（Qwen3-VL-7B版本）平均准确率为54.3%，比最强开源基准Video-R1高5.8个百分点，比Gemini-2.5-Pro高16.2个百分点，且从干净视频到干扰视频的准确率降幅是所有比较方法中最小的。

Q3：盲目信任问题（Blind Trust Problem）对实际应用有什么危害？

A：普通视频AI在遭遇模糊、遮挡等干扰时，准确率会骤降15到30个百分点，但模型本身的"自我报告置信度"几乎不变，依然自信地给出错误答案。这种"沉默的失败"在交通执法、安防监控、自动驾驶事故复盘等高风险场景中尤为危险，因为使用者根本不知道AI的输出已经不可靠。