阿里Qwen团队把AI视觉推理的连环翻车现场|qwen|推理|新论文|视觉|阿里巴巴集团

视觉语言模型（Vision Language Models，视觉语言模型）在单张图片问答里表现得像个优等生，一旦任务需要连续三步以上的推理，错误率就陡然爬升。阿里Qwen团队联合清华的研究人员追踪了这个现象，他们发现问题的根源不是模型"看不懂"，而是"看错一步，全盘皆输"。

一个点数的偏差，能让整串推理链变成精致的废话。

研究团队举了三个典型翻车案例。第一个任务是数瓢虫背上的斑点——模型在五只甲虫里看错了三只，每只少算一个点，最终总数错得离谱。第二个是判断车辆移动方向：模型正确锁定了车在画面中的位置，却把"驶入停车位"理解成了"驶出"。第三个案例里，模型在天文示意图上指错了弧线，连带推导出错误的季节。

这些错误横跨照片、示意图和科学插画，但崩溃模式高度一致：中间步骤的微小感知失误，会像多米诺骨牌一样推倒后续所有结论。

HopChain：把"连环追问"变成训练燃料

现有的可验证奖励强化学习（RLVR，Reinforcement Learning with Verifiable Rewards）训练数据有个明显缺口——几乎找不到需要持续聚焦视觉细节的多步骤任务。Qwen团队为此搭建了HopChain框架，专门生成"一步扣一步"的图像问题。

框架设计了两种链接机制。第一种让任务在"单对象识别"和"多对象比较"之间交替：读文字、辨颜色之后，立刻跟上尺寸比例或空间关系的判断。第二种建立对象间的依赖链，模型必须借助已识别的对象，才能定位下一个目标。

每个问题都以唯一数字结尾，作为自动校验的答案。论文中展示了一个典型题目：先数玩具羊的眼睛数量，再检查背景纸是否有文字，接着数旁边木偶的眼睛，读取第二个木偶前方纸上的单词并数字母数，完成一系列算术运算，最后乘以场景中玩具总数。正确答案：72。

这种设计逼使模型在每一步都重新检查图像，而不是依赖前一步的"记忆"——而记忆，恰恰是幻觉滋生的温床。

四阶段流水线：从种子问题到百万级训练数据

数据生成跑四个阶段。第一阶段，Qwen3-VL-235B-A22B-Thinking模型从种子视觉问题出发，生成多步骤推理链。第二阶段，系统提取链中的关键视觉元素，构建对象依赖图。第三阶段，基于依赖图生成新的问题变体，确保难度梯度合理。第四阶段，自动验证答案正确性，过滤掉逻辑断裂或视觉模糊样本。

研究团队用这套流程生成了涵盖自然图像、文档、图表、科学示意图的混合数据集。训练后的模型在24项基准测试中的20项取得提升，涵盖数学推理、空间理解、细粒度视觉识别等多个维度。

一个细节值得玩味：HopChain的训练数据并非追求"更难"，而是追求"更真实的多步骤依赖"。传统数据增强往往把单步问题简单堆叠，模型学会了套路却没学会检查。HopChain的依赖链设计，让模型无法跳过中间步骤直达答案。

视觉推理的"复利效应"：小错滚成大错

论文把这种现象称为"感知误差的复利累积"——借用金融术语形容认知过程的崩塌。每一步推理都建立在前一步的输出上，前一步的微小偏差被后续步骤当作既定事实吸收、放大，最终输出一个逻辑自洽但完全错误的结论。

这解释了为什么视觉语言模型的"思维链"（Chain-of-Thought）输出越长，可信度反而越低。人类写长推导时会回头检查，模型却倾向于一路狂奔，把早期幻觉当作后续推理的基石。

HopChain的干预点很精准：它不试图让模型"更聪明"，而是强迫它在每个节点重新锚定视觉证据。就像让一个人在走钢丝时，每走一步都低头确认脚下，而不是凭感觉继续。

24项测试中的20项提升，剩下4项持平——没有一项下降。

这个成绩暗示了一个被低估的训练策略：与其追逐更大的模型或更多的通用数据，不如针对特定失效模式设计结构化训练信号。HopChain的数据生成成本远低于采集同等规模的人工标注数据，却能精准打击模型的软肋。

研究团队开源了数据生成 pipeline 和部分训练样本。对于正在训练视觉语言模型的团队来说，这套工具提供了一种可复现的"压力测试"方法——先找出模型在哪些多步骤场景下容易翻车，再定向生成类似结构的训练数据。

一个尚未回答的问题是：当HopChain式的训练成为标配，视觉语言模型的能力边界会向外扩展多少？那些现在还需要人工分步拆解的视觉任务——比如复杂的机械维修指引、医学影像的跨切片追踪、工程图纸的多层解读——能否被端到端解决？

阿里Qwen团队把AI视觉推理的连环翻车现场

HopChain：把"连环追问"变成训练燃料

四阶段流水线：从种子问题到百万级训练数据

视觉推理的"复利效应"：小错滚成大错

热搜

热门跟贴

HopChain：把"连环追问"变成训练燃料

四阶段流水线：从种子问题到百万级训练数据

视觉推理的"复利效应"：小错滚成大错

热搜

热门跟贴

相关推荐

5个AI员工同时开工，4倍效率背后的3次翻车现场

阿里开源9B模型：3个隐藏开关让AI"口无遮拦"

19年老架构师用AI画图：3个月后发现系统全崩了

两个AI用React盖楼，3秒后楼塌了

AI无处不在，请大家擦亮眼睛，也希望平台监管严格！

「自进化」AI集体翻车：3个灵魂拷问戳破营销泡沫

谷歌AI Studio被开发者玩出花：3天搓出旅行翻译神器

阿里每天撒1500万红包，把AI闭环锁死在自家围墙里

350万行代码删到50万：一个老程序员被AI逼到掀桌

现在的AI技术太强了，最后一个画面直接暴击了

看完再也不敢用AI了

别人AI模仿人，我们人模仿AI，这个演一天200块钱！

多模态推理新范式ThinkMorph ，文字与图像在统一架构共同演化

ColaVLA：自动驾驶大模型，不一定非要把「思考过程」写成文字

智能体上线就翻车？AWS 这款 “质检神器”，帮你把 Agent 稳稳送上生产线

让多模态检索超越SOTA！ReCALL框架化解生成式与判别式的范式冲突

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

AI编程：“全民狂欢” vs“屎山危机”

假期首日广东高速车流量超千万车次；东莞首部本土AI真人短剧“硬成本”仅2000元丨大湾区财经早参