今年4月有说法称Vision Pro彻底失败、不会有下一代。但这话现在站不住脚了——苹果机器学习博客刚发了两篇新论文,研究用LLM做手语标注和3D头部建模,还搞了一套专门测试AI空间理解能力的新基准。
这套叫SFI-Bench的测试系统,核心是解决一个老问题:现在的多模态大模型能看懂"东西在哪",但不懂"东西干嘛用的"。
打开网易新闻 查看精彩图片
苹果研究人员解释,人类理解空间靠两套结构——空间表征(物体布局和关系)和功能表征(用途、操作方式、场景上下文)。现有测试比如VSI-Bench只测前者,SFI-Bench把后者补上了。
具体测什么?论文列得很直白:模型得知道物体是什么、在哪、怎么用、干什么用、坏了怎么修。测试基于134段室内视频扫描,出了1555道专家标注题。比如让AI找出柜子上同一品牌的最大瓶子组,或者取消洗衣机当前程序。
这功能听起来耳熟。Google 2024年I/O就演示过类似的——AI认出眼前的黑胶唱机,还能建议怎么修。苹果这套基准就是用来测这类能力的进阶版本。
Vision Pro产品线确实有人事变动,但AI研究没停。空间计算需要AI理解物理世界,这套测试系统摆明了是在给下一代设备铺路。
热门跟贴