这项由新加坡南洋理工大学(NTU Singapore)联合明尼苏达大学双城分校(University of Minnesota, Twin Cities)和蔚山科学技术院(UNIST)共同完成的研究,于2026年6月25日以预印本形式发布在arXiv平台,论文编号为arXiv:2606.26904v1。感兴趣的读者可以通过该编号查阅完整论文。
假设你是一名交通执法人员,需要通过行车记录仪的视频认定闯红灯的车辆和车牌号。但问题来了——那段视频里有几帧因为雨天挡风玻璃上的雨刮器抖动而模糊不清,还有几帧被路边一辆大卡车遮住了关键位置,另外夜间迎面来车的大灯照得画面一片惨白。这时候你会怎么办?
一个细心的人会自然而然地跳过那些模糊或被遮挡的画面,专注于那些清晰可辨的帧,把证据建立在看得清楚的图像上。然而,当前绝大多数的视频理解AI系统恰恰缺乏这种"挑剔"的能力——它们会把每一帧画面都当作同等重要的证据来处理,不管这帧画面是清晰的还是一团糊的。这个问题就是这篇论文所提出的"盲目信任问题"(Blind Trust Problem)。
研究团队发现,在真实世界的测试场景中,一些最先进的视频推理AI模型,在遭遇运动模糊、强光眩晕或物体遮挡等常见干扰时,准确率会骤降15到30个百分点——而且这些模型对自己已经"看错了"这件事毫不知情,依然自信地给出答案。为了解决这个根本性的缺陷,研究团队提出了一个名为"Robust-TO"的全新框架,让AI学会像那位细心的执法人员一样,先判断每一帧画面值不值得信任,再决定要不要把它作为推理的依据。
一、当AI遇到"睁眼瞎":什么是盲目信任问题?
以那位执法人员的故事为线索,可以更清楚地理解这个问题的严重性。现有的视频AI,就像一个被蒙上眼睛后随机打开的人:不管眼前的画面是清晰的商场监控还是大雾天的模糊录像,它都以完全相同的方式处理,不会去判断"这个画面可不可信"。
这种设计在大多数日常场景下问题不大,但在真实世界的关键应用场景里,就成了致命弱点。研究团队在UrbanVideo-Bench这个专门用于城市场景视频理解的基准测试上进行了验证,结果触目惊心:当视频被施加了运动模糊(比如行驶中的车辆拍摄的抖动画面)、高斯噪点(低光环境下的画面颗粒感)、强光眩晕(迎面车灯或阳光直射)、遮挡(路人或障碍物挡住关键区域)、低光照(夜间或昏暗室内)这五种常见干扰之后,主流的视频推理模型的准确率平均下降了15到30个百分点。
更令人担忧的是,这些模型在给出错误答案时,往往还"非常自信"。它们的"自我报告置信度"几乎没有变化,仿佛什么都没有发生。在法庭调查、安防监控或自动驾驶事故复盘这类场景里,这种"沉默的失败"比直接报错更危险——因为使用者根本不知道AI已经在胡说八道了。
二、Robust-TO的核心思路:先当"质检员",再当"分析师"
Robust-TO框架的设计哲学,正是来源于那位细心的执法人员的工作方式。整个流程可以用侦探破案的比喻贯穿理解:一个好侦探在正式分析证据之前,会先把所有线索按照可信度分类——哪些是清晰的现场照片,哪些是模糊的目击者陈述,哪些是可能被污染的物证。然后,他会把最可信的证据放在最重要的位置,用它来构建核心结论,再用次可信的证据来验证和补充,对于那些根本靠不住的线索,除非别无选择,否则根本不会纳入考量。
Robust-TO就是按照这个逻辑设计的,整个推理过程分为三个环环相扣的阶段。
第一个阶段是"质量画像与帧选择",相当于侦探对现场证据进行初步分类。这里的关键工具是研究团队设计的一个名为assess_quality的"无参数画质评估工具"——所谓无参数,就是这个工具不需要经过专门训练,它完全依靠图像本身的信号来判断画质好坏,就像用肉眼看照片是否清晰一样直观。
具体来说,这个工具从三个维度来评估每一帧画面的"可信度"。第一个维度是模糊度:通过计算图像的"拉普拉斯方差"(可以理解为画面边缘的清晰程度)来判断,越模糊的画面这个数值越低,就像你把眼镜摘掉后看到的世界——边缘都变成了朦胧的渐变色,细节全部消失。第二个维度是亮度偏差:测量画面的平均亮度是否远离正常值,太暗(比如夜间录像)或太亮(比如强光直射)的画面都会得到较高的"干扰分数"。第三个维度是遮挡程度:通过检测画面中有效边缘信息的占比来估计,被遮挡的画面缺乏丰富的结构信息,就像一张大部分被黑色油漆涂掉的照片。
这三个维度综合起来,给每一帧画面打出一个"干扰分数"——分数越高代表这帧画面越不可信。然后,系统将这个可信度分数与"该帧画面与当前问题的相关性"相乘,得到一个综合评分。打个比方:一帧非常清晰但拍的是路边树木的画面,不如一帧稍微有点模糊但正好拍到了目标车牌的画面有价值。只有那些既清晰又相关的帧,才会被筛选出来,作为后续分析的"可信证据池"。这个筛选过程将原本32帧的视频压缩到平均20.7帧,不仅减少了噪音,还将推理时间缩短了超过35%,同时准确率还提升了1.6个百分点。
第二个阶段是"基于置信度的工具路由",相当于侦探根据线索的性质选择对应的检测手段。一个案件往往涉及多个问题:嫌疑车辆是什么颜色?什么时候经过红灯区?车牌号是多少?每个问题对应不同的调查手段——颜色要靠目击者陈述,时间要靠时间戳记录,车牌要靠专业的车牌识别技术。把所有问题都交给同一种手段处理,显然是低效且不准确的。
Robust-TO采用的策略是首先将原始问题拆解为多个"原子子问题"(Atomic Sub-queries),每个子问题只针对一种感知能力。比如"这段视频里有什么车辆,它们的位置在哪里"是一个空间定位子问题,"这辆车在视频中如何移动"是一个时间追踪子问题,"路牌上写了什么"是一个文字识别子问题。
接下来,系统根据第一阶段得到的"主导干扰类型"为每个子问题选择最合适的工具。系统拥有一个工具箱,里面包括:detect_objects(目标检测,找出画面中的物体和位置)、caption_frame(场景描述,生成对画面内容的自然语言描述)、track_temporal(时序追踪,跨帧追踪物体运动轨迹)、recognize_action(动作识别,识别视频中的行为事件)、read_text(文字识别,读取画面中的文字信息)等专业工具,每个工具都有各自擅长的场景和弱点。
关键在于:当画面主要受到运动模糊影响时,系统会偏向使用caption_frame而非detect_objects,因为目标检测依赖清晰的边缘信息,模糊画面中边缘消失了,检测效果会急剧下降,而场景描述对清晰度的要求相对更宽容;当画面主要被遮挡时,系统会用recognize_action代替track_temporal,因为追踪需要在连续帧间持续定位目标,一旦目标被遮挡就会丢失,而动作识别更关注整体行为模式。
每次工具调用结束后,都会返回一个"结果加置信度"的配对——不只告诉你"发现了一辆白色轿车",还会告诉你"这个发现有多可信"。这个置信度是两个因素的乘积:一是工具本身对这个结果有多确定(比如车牌识别工具对字符的识别置信度),二是输入帧的可信度(越清晰的帧,工具的输出越可信)。特别巧妙的是,在计算输入帧可信度时,系统采用了"最差三分之一帧"的保守策略——不是用所有帧的平均值,而是专门盯着最差的那批帧,防止几帧清晰的画面掩盖了大量模糊帧带来的风险。
第三个阶段是"基于可信度分级的视频推理",相当于侦探综合所有证据作出最终裁决。所有子问题的"结果加置信度"配对汇聚到一起后,系统将它们按置信度分为三档:高置信度(置信度大于等于0.7且画面干扰低于0.3)、中置信度(其余情况)、低置信度(置信度低于0.3或画面干扰高于0.7)。
推理的优先级是:高置信度证据主导结论,中置信度证据仅在与高置信度结论一致时才被采纳,低置信度证据只在完全没有更好证据时作为最后手段,并且最终答案会明确标注"剩余不确定性"。这样的机制确保了:可靠的证据决定结论,不可靠的证据只能"附议",绝对不能推翻结论。
三、让AI通过"练习"变得更聪明:GRPO训练与奖励设计
仅仅有了这套流程框架还不够——系统里的"主控AI"(Host VLM)需要通过大量实践来学会何时该做什么。研究团队采用了一种叫GRPO(群体相对策略优化,Group Relative Policy Optimization)的强化学习方法来训练这个主控AI,简单说就是:让AI反复尝试解决问题,给做得好的行为正面反馈,给做得差的行为负面反馈,让它在不断试错中学会更好的策略。
训练的奖励信号由四个部分组成,这四个部分共同塑造了AI的"行为准则"。
第一部分是"正确性奖励":答案对了就加分,答案错了就扣分,这是最直接的反馈。
第二部分是"置信度成本奖励":这是整个设计中最有创意的部分。其逻辑是:高置信度的输出是有价值的,但获得高置信度往往需要调用昂贵的工具(比如track_temporal的计算成本是read_text的近三倍)。这个奖励项的公式是"置信度减去工具成本乘以惩罚系数",它鼓励AI在花费最少计算资源的前提下获得最高的置信度。换句话说,如果用一个便宜的工具就能得到可信结果,就不要去调用昂贵的工具——这迫使AI学会"精打细算"。实验证明,去掉这个奖励项,准确率会下降2.3个百分点,因为AI会倾向于总是调用最贵的工具,导致在干扰画面上也强行使用高要求的检测工具,产生自信但错误的答案。
第三部分是"子问题效率奖励":这个奖励惩罚两种极端情况——把问题分解得太细(浪费工具调用次数)或者分解得太粗(信息不完整)。研究团队用一个单独的"冻结"AI来预测最佳的子问题数量,然后用这个目标值来约束主控AI的行为。为什么要"冻结"这个估算AI而不让主控AI自己估算呢?实验给出了答案:如果让主控AI自己预测目标数量,它会学会作弊——刻意低报目标数量来降低实际的子问题数量,用"改规则"的方式来获得奖励,而非真正提升问题分解的质量。去掉这部分奖励,准确率下降2.1个百分点;用主控AI自估代替冻结估算,准确率下降1.2个百分点,且奖励的方差增大2.3倍。
第四部分是"格式奖励":确保AI输出符合规定的格式要求,比如工具调用使用JSON格式,这是保证整个流程能正常运行的基础。
四、在真实测试中的表现:数字背后的故事
研究团队在两个公开基准测试上全面验证了Robust-TO的效果,分别是专注于城市室外场景的UrbanVideo-Bench(包含LP地标位置、CF反事实推理、PE进度评估、AG动作生成四个任务)和专注于室内空间推理的VSI-Bench(包含RDist相对距离、RDir相对方向、RP路线规划、AO出现顺序四个任务),共覆盖八个不同维度的视频理解能力。
在干净视频上,以Qwen3-VL-7B为基础模型的Robust-TO取得了56.4%的平均准确率,比谷歌的Gemini-2.5-Pro(46.2%)高出了10.2个百分点,也比经过有监督微调的Qwen2.5-VL-7B(45.8%)高出了10.6个百分点——要知道,Robust-TO使用的基础模型参数量只有70亿,而它在某些任务上甚至超越了大得多的专有系统。在八个任务中,Robust-TO在六个上取得了最佳成绩,尤其在"出现顺序"(77.5%)和"地标位置"(61.1%)这两个需要整合时间跨度大的证据的任务上,优势最为显著。
在干扰视频上,Robust-TO的表现更令人印象深刻。面对五种不同类型的干扰,Robust-TO(Qwen3-VL-7B版本)的平均准确率为54.3%,比最强的开源基准Video-R1(Qwen3-VL-7B版本,48.5%)高出5.8个百分点,比Gemini-2.5-Pro(38.1%)高出16.2个百分点,比GPT-4o(32.2%)高出22.1个百分点。
更重要的是,Robust-TO从干净视频到干扰视频的准确率降幅是所有被比较方法中最小的。用具体数字说话:Qwen2.5-VL-7B原版模型在干净视频上得26.9%,在干扰视频上跌至17.5%,跌幅高达9.4个百分点;同参数量的Robust-TO版本从50.6%跌至47.1%,跌幅只有3.5个百分点。这就是那个核心设计思想的价值:不是让AI在干净视频上无敌,而是让它在遇到"脏"视频时也不会慌乱地胡说八道。
研究团队还通过一系列"控制变量"实验,逐一验证了每个设计决策的必要性。去掉帧选择器,准确率从50.7%跌到49.1%;将"最差三分之一帧"的保守置信度聚合改为全帧平均,准确率从50.7%跌到47.4%;去掉置信度信息,准确率从50.7%跌到43.1%,跌幅高达7.6个百分点——这说明"告诉AI每条证据有多可信"是整个框架中价值最大的设计。用自然语言描述工具的替代方案:将工具选择策略从"固定永远使用同一工具"改为"只根据问题语义选工具",再到"同时考虑问题语义和画面干扰类型"的完整版,准确率分别提升了10.4和6.1个百分点。
五、一个真实案例:追查闯红灯的车辆
论文中的一个具体案例可以将所有机制串联起来。问题是:"哪辆车在路口闯了红灯,它的车牌号是多少?"视频共24帧,同时遭受三种干扰:第4、5、22帧受到迎面车灯眩光影响,第7至9帧和第15至17帧有雨刮器运动模糊,第10至13帧被一辆卡车部分遮挡了路口视野。
普通视频AI的做法是把所有24帧平等对待。它在第10至13帧中看到了模糊的卡车和路口,又受到眩光帧的干扰,最终得出"白色轿车,车牌B8C-394"的错误答案——这个车牌号在模糊帧中根本看不清楚,AI是"猜"的。
Robust-TO的做法则完全不同。质量评估阶段发现第10至13帧的遮挡分数在0.68到0.85之间,属于高干扰帧,即便这几帧与"路口"这个查询关键词有高达0.73至0.80的相似度,系统依然将它们从可信证据池中剔除。最终筛选出的是第14、18、19、3、6、20、21、23帧这八帧画面,都是干扰分数低于0.3的清晰帧。
接着,系统将问题分解为四个子问题:识别交通灯显示什么颜色、检测路口附近的车辆、追踪每辆车的运动轨迹、读取最近车辆的车牌文字。前三个子问题的工具调用结果置信度在0.528至0.785之间,属于中高置信度;第四个车牌读取任务在清晰帧上返回"B-7742-XK",三帧中有两帧得到一致结果,置信度0.787,属于高置信度证据。
最终,系统整合了三条高置信度证据和一条中置信度证据,给出答案:"白色轿车闯了红灯,车牌B-7742-XK,由第14和第18帧的OCR结果确认(字符级置信度大于等于0.89),整体置信度0.72。"这正是正确答案。
六、尚待完善之处:诚实面对局限
研究团队在论文中坦诚地指出了Robust-TO目前的四个局限。第一,画质评估的词汇表仅覆盖模糊、亮度偏差和遮挡三种干扰类型,对于对抗性攻击(故意制造的欺骗性干扰)、语义遮挡(一个无关物体把关键目标挡住了,但画面本身是清晰的)或音视频不同步等情况,目前的质量评估工具无法处理。第二,用于预测最佳子问题数量的"冻结估算AI"本身的能力上限了整个分解策略的质量上限,如果这个AI本身对某类问题的判断不准,训练信号就会有噪音。第三,帧筛选依赖主控AI的视觉编码器,如果这个编码器本身对某类干扰不鲁棒,帧的"相关性排名"就可能失准。第四,在极度干扰的视频上,完整的质量评估加多工具路由加置信度加权合成流程,会带来超过正常5%的额外延迟,在需要实时决策的场景下可能成为瓶颈。
归根结底,这篇论文最核心的贡献,是把一个以前被忽视的问题——"AI看视频时应该怎么对待质量差的画面"——变成了一个有系统解法的工程问题。那位细心的执法人员一直知道应该优先关注清晰画面,但直到Robust-TO,才有AI系统将这个直觉转化成了可以训练、可以量化、可以验证的技术方案。
当AI视频分析被越来越多地用于交通执法、安防监控、自动驾驶事故复盘等高风险场景时,"沉默的失败"是无法接受的。Robust-TO提供的思路——让每一条证据都携带可信度标签,让推理过程的每一步都清楚知道自己在多大程度上依赖了可靠信息——或许是让AI从"不知道自己不知道"到"知道自己不确定"的一次重要跨越。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2606.26904查阅完整论文,项目主页也在rova-v2.github.io上提供了更多演示案例。
Q&A
Q1:Robust-TO框架是如何判断视频中哪些帧可以信任的?
A:Robust-TO使用一个名为assess_quality的无参数画质评估工具,从模糊度、亮度偏差和遮挡程度三个维度对每一帧进行评分,生成一个"干扰分数"。分数越高代表该帧越不可信。系统随后将可信度分数与帧内容和问题的相关性相乘,综合两个维度筛选出既清晰又相关的帧作为后续推理的依据。
Q2:Robust-TO在处理模糊视频时比普通视频AI好多少?
A:在五种常见视频干扰类型(运动模糊、高斯噪点、眩光、遮挡、低光照)的测试中,Robust-TO(Qwen3-VL-7B版本)平均准确率为54.3%,比最强开源基准Video-R1高5.8个百分点,比Gemini-2.5-Pro高16.2个百分点,且从干净视频到干扰视频的准确率降幅是所有比较方法中最小的。
Q3:盲目信任问题(Blind Trust Problem)对实际应用有什么危害?
A:普通视频AI在遭遇模糊、遮挡等干扰时,准确率会骤降15到30个百分点,但模型本身的"自我报告置信度"几乎不变,依然自信地给出错误答案。这种"沉默的失败"在交通执法、安防监控、自动驾驶事故复盘等高风险场景中尤为危险,因为使用者根本不知道AI的输出已经不可靠。
热门跟贴