多模态大语言模型(MLLMs)能看图、能读表,却在真正需要逻辑推演时频频翻车。这不是技术演示的问题,而是底层架构的瓶颈。

当前主流方案把视觉编码器和语言模型简单拼接,图像被压缩成固定长度的"视觉token"后丢进文本流。信息损耗发生在第一步:一张图表里的行列关系、数值趋势,在编码阶段就已经模糊。

打开网易新闻 查看精彩图片

更麻烦的是训练数据的错配。图文对数据教会了模型"描述",却没教会"推导"。数学题需要链式思考,科学图解需要空间推理——这些能力无法从静态标注中自然涌现。

打开网易新闻 查看精彩图片

研究者正在试探几条路径:让模型在回答前生成中间步骤,用代码执行替代纯文本推理,或是引入专门的视觉推理模块。但哪一种能规模化,尚无定论。

一个冷峻的事实是,MLLMs在标准视觉问答上表现亮眼,却在需要多步逻辑的任务上差距明显。评测基准的分数上涨,未必对应真实场景中的可靠度提升。

打开网易新闻 查看精彩图片

这场硬仗的核心矛盾在于:我们究竟想要一个"能看懂图的聊天机器人",还是一个"能基于视觉信息做决策的推理引擎"?产品定义模糊,技术路线就难以收敛。