最近一篇论文让我反复观看,那就是李飞飞联合西北大学教授做了一个测试,将ChatGPT、Claude、DEEPSEEK等主流一线模型做了一个基线测试。
” “Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces”
研究团队设计了一个 空间推理测试集 VSI-Bench ,包含:
5000+ 视频空间问答任务
需要模型理解:
物体位置
空间移动
距离关系
环境结构
测试模型
论文测试了多种大模型,例如:
GPT 系列
多模态模型
视觉语言模型
从而得出结论
LLM的空间理解能力远低于人类
语言推理技巧(CoT、Tree-of-Thought)几乎无帮助
模型缺乏真正的 “world model / 空间认知结构”
并且语言推理技巧也几乎完全落后人类
语言推理技巧(CoT、Tree-of-Thought)几乎无帮助
模型缺乏真正的 “world model / 空间认知结构”
LLM模型无法做空间的底座
为什么现在的AI模型无法生成空间系统了,因为他就没有办法去理解空间操作能力,这就导致我们现在做vision Pro的开发,当程序员想用AI编码工具生成,几乎无法完成。
被迫只能手动写代码,在现在空间计算里面,因为他们记不住在视频里面的内容,也很难分辨出空间里面的物体。
在论文里举例,如果现在的常识是在3D图形旋转一圈之后,看下AI模型能不能识别,而这种只是拿着标准答案来测试;于是他们用真实的家庭识别来测试,或者工厂或者办公室。
空间智能有4个能力,分别是视觉能力、语言能力、时间处理、空间推理,其中
1.视觉感知(visual perception)
模型需要:
识别物体
识别形状
识别位置
例如:
桌子、椅子、门、窗户
2.语言能力(linguistic intelligence)
模型要理解问题。
例如:桌子在沙发左边还是右边?
3.时间处理(temporal processing)
视频是:
时间序列
模型要理解:
物体移动
相机移动
人的路径
这是最难的部分。
模型要理解:
距离
方向
相对位置
例如:
桌子在椅子前面
而这点现在大模型做不到,主要是因为大模型现在只有tokens sequence,所以LLM不会真正理解房间结构、路径、距离。
最后就是通过空间智能之后,加上时间的维度就是空间记忆,比如在记忆里面人类可以记住物体的位置,完整的房间布局结构。
而机器人要想能够自主运动,就是需要空间模型,而当前时间是没有空间模型的,都是LLM,这也是为什么vision Pro与AndroidXR会成为下一代革命,当真正使用空间设备的人多了之后,就可以快速生成更多高质量的空间数据,就可以完成空间智能模型的训练了。
今天的分享就到这里
热门跟贴