多模态大模型的推理能力：一场被低估的硬仗

报错免疫体

2026-05-17 03:59 ·北京

多模态大语言模型（MLLMs）能看图、能读表，却在真正需要逻辑推演时频频翻车。这不是技术演示的问题，而是底层架构的瓶颈。

当前主流方案把视觉编码器和语言模型简单拼接，图像被压缩成固定长度的"视觉token"后丢进文本流。信息损耗发生在第一步：一张图表里的行列关系、数值趋势，在编码阶段就已经模糊。

更麻烦的是训练数据的错配。图文对数据教会了模型"描述"，却没教会"推导"。数学题需要链式思考，科学图解需要空间推理——这些能力无法从静态标注中自然涌现。

研究者正在试探几条路径：让模型在回答前生成中间步骤，用代码执行替代纯文本推理，或是引入专门的视觉推理模块。但哪一种能规模化，尚无定论。

一个冷峻的事实是，MLLMs在标准视觉问答上表现亮眼，却在需要多步逻辑的任务上差距明显。评测基准的分数上涨，未必对应真实场景中的可靠度提升。

这场硬仗的核心矛盾在于：我们究竟想要一个"能看懂图的聊天机器人"，还是一个"能基于视觉信息做决策的推理引擎"？产品定义模糊，技术路线就难以收敛。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴