打开网易新闻 查看精彩图片

新智元报道

打开网易新闻 查看精彩图片

【新智元导读】当下的多模态大模型,在Demo里能对着照片侃侃而谈,可一旦离开RGB画面,面对热成像、深度、毫米波这些真实世界里随处可见的信号,就集体「失明」。港中文AIoT 实验室联合UIUC、哥伦比亚大学与匹兹堡大学,用一个包含64,267个七模态同步样本的数据集CUHK-X,第一次系统地把这条「看得见却读不懂」的能力断崖量化了出来。最扎心的结论是,把模型参数堆到235B,照样救不回来。该工作已被ACM MobiSys 2026录用。

过去两年,VLM(视觉语言模型)的进步几乎都写在RGB图像上。给它一张照片,它能描述、能问答、能推理,看上去无所不能。

但把它放进真实的居家、养老或医疗场景,故事立刻变了样。夜里光线不足、被家具遮挡、出于隐私不能上摄像头,这些恰恰是日常监测最常见的工况,也恰恰是RGB最不擅长的地方。真正要扛事的,是热成像、深度、毫米波雷达、IMU这些非RGB模态。

问题在于,模型在这些模态上的表现,和它在RGB上的光鲜形成了刺眼的反差。根子也很清楚,训练和评测它们的数据长期是缺的。现有的人类活动识别(HAR)数据集绝大多数只给到粗粒度的 ⟨数据, 标签⟩,比如一条「跌倒」、一条「睡觉」,既没有连贯的语义描述,也不覆盖多模态。模型自然学不会「看懂」,更谈不上「读懂」。

三个能力台阶

要把这件事讲清楚,得先把「看懂人」拆成三个递进的台阶。

第一阶是识别(HAR),回答「这是什么动作」,本质是分类。

第二阶是理解(HAU),要求模型用自然语言描述一段活动序列,并判断当时的情境状态,比如是放松、平静还是匆忙。

第三阶是推理(HARn),在看完前序动作后,推断行为意图并预测下一步最可能发生什么。

举个例子。看到一个人「洗脸、刷牙、梳头」,识别只需要逐个贴标签;理解要能把它串成「一段晨间洗漱」;而推理则要据此判断「接下来他大概率要出门」。越往上走,越考验模型对上下文和因果的把握,也越接近智慧医疗、居家养老真正需要的能力。例如在阿尔茨海默病照护中,对日常行为的连续理解与预判,正是及时干预的关键依据。

打开网易新闻 查看精彩图片

图1 CUHK-X 在多房间真实家居环境中同步采集七种传感模态,并面向识别(HAR)、理解(HAU)与推理(HARn)三类任务统一建模。

CUHK-X

先有「真值」再采数据

针对这条断崖,CUHK-X 给出的答案是一个面向HAR、HAU、HARn三类任务的大规模多模态数据集与基准。它包含64,267个活动样本,覆盖7种同步模态、40种日常动作和30名参与者。

打开网易新闻 查看精彩图片

论文链接:https://arxiv.org/abs/2512.07136

项目主页 https://openaiotlab.github.io/CUHK-X/

代码链接 https://github.com/openaiotlab/CUHK-X

更关键的是它「反着来」的采集逻辑。一种偷懒的做法是把若干单模态数据集的粗标签拼到一起,再让LLM自动编描述。但这样极易制造时空矛盾,比如把「刷牙」和「吃饭」硬塞进同一个场景,可两者本就发生在不同房间、不同时段,逻辑上根本说不通。

CUHK-X反其道而行,采用了「先有真值」(Ground-Truth-First)的策略。它先用LLM把同类或跨类动作逻辑串联成连贯的生活场景描述(如把洗脸、刷牙、梳头、擦手、穿衣组织成完整的晨间场景),再对描述做语言风格扩展,并经四位研究生级标注员按物理可行性、场景一致性、时间因果与常识约束四个维度人工把关,最后才让参与者理解描述、自然表演,按描述去采真实数据。如此得到的 ⟨数据, 描述⟩ 配对,天然时空对齐、语义连贯。

打开网易新闻 查看精彩图片

图2 CUHK-X的数据生产链路,从动作筛选、场景化描述生成到按描述采集多模态数据,最终汇成三大基准。

在两个真实室内环境(客厅、厨房、卧室、浴室四类场景)中,CUHK-X用一套精心设计的传感器阵列同步记录七种模态。环境侧包括Goermicro Vzense NYX 650相机(同时输出RGB、深度、红外)、德州仪器IWR6843ISK毫米波雷达(60–64 GHz)和海康TB4117热成像相机(120×160);可穿戴侧是五个 WitMotion WT9011DCL-BT50 IMU,分别戴在双手腕、双脚踝和腰部;骨架数据则由MMPose从RGB与深度帧估计出17个3D关节点。30名参与者中男女比例为40%比60%,年龄20–23岁。据作者介绍,这是首个同时覆盖RGB、深度、热成像、红外、骨架、IMU、毫米波雷达七种模态、并配有丰富文本描述的大规模活动数据集。

打开网易新闻 查看精彩图片

图 3 环境侧传感器与可穿戴 IMU 的部署方案。

打开网易新闻 查看精彩图片

图 4 同一组日常活动在七种模态下的同步可视化,直观体现各模态的信息密度差异。

打开网易新闻 查看精彩图片

图 5 CUHK-X 数据规模与类别分布概览。

三大基准六项任务

数据之外,CUHK-X 真正的杀伤力在于它的评测设计,六项任务几乎每一项都是冲着逼出模型短板去的。

HAR 基准下设 1 项任务,即 40类动作分类,检验各模态对识别模型的支撑力。HAU 基准下设 4 项任务,分别是描述比较(看模型生成的描述和真值语义有多接近)、上下文分析(判断动作执行时的情境状态)、动作序列重排(把打乱的动作还原成正确时序)和动作选择(从 40 个候选里挑出视频里真正发生的)。HARn 基准下设 1 项任务,即基于前序动作预测下一个最可能的动作,直击意图推理与因果推断。

被拉上测试台的,是 InternVL2.5-2B/8B、QwenVL2.5-3B/7B、VideoLLaVA-7B、VideoChatR1-7B 等一线 VLM;HAR 任务上还加入了 ResNet-50、PointNet、MotionBERT 等模态专用模型。为了看清「规模红利」,研究还额外评测了 Qwen-35B、QwenVL3-235B 和 Doubao-seed-2.0 等更大体量的模型。

四个反直觉的发现

跑完全套评测,CUHK-X 给出了几条相当扎心的结论。

发现一,模态之间存在明显的「鄙视链」,但弱模态并非没用。HAR 七模态平均识别准确率为 76.52%,视觉模态一骑绝尘:热成像拿到 92.57% 准确率、93.36% F1,RGB 与深度的 F1 分别为 91.28% 和 90.93%,骨架也有 79.08% 准确率。而 IMU 与毫米波雷达的独立准确率只有 45.52% 和 46.63%。判别力天然偏弱,但正是这两类模态,在遮挡、弱光和隐私敏感场景里提供着视觉模态给不了的互补价值。

发现二,参数越大不一定越强。模型规模实验显示,单纯堆参数并不能在所有任务和模态上普涨。最典型的是 QwenVL3-235B,在深度上下文分析任务上不升反降,从 0.422 直接掉到 0.286。即便是整体最强的 Doubao-seed-2.0,在同一任务上也只做到 0.552。换句话说,CUHK-X 抛出的难题,远没有被现有大模型解决。

发现三,会「推理」的模型,明显打得过会「描述」的模型。在 HARn 基准上,三种视觉模态的平均推理准确率达到 70.25%(最高 90.30%),其中 VideoChatR1-7B 这类推理模型显著领先于描述模型。前者能借助上下文理解和逻辑推断,把已观察到的动作和最可能的下一步关联起来;后者则常常被表面视觉线索带偏。

发现四,没有「全能选手」。在动作序列重排和动作选择这类任务上,呈现出强烈的模型-模态交互效应,没有任何单一模型能在所有模态上通吃。HAU 四项子任务的平均准确率只有 40.76%(最高也才 50.52%),描述比较任务上 VideoLLaVA-7B 拿到最佳 BERTScore F1(86.40%),但换一个模态、换一项任务,领先者又会易主。这种「测不出一个稳定赢家」的状态,恰恰说明了基准本身的区分度和挑战性。

对具身智能意味着什么

把这些发现拼起来,CUHK-X 其实是给整个具身智能社区提了个醒。当下 VLM 的强,很大程度上是「RGB 之强」;一旦进入真实物理世界那些绕不开的非 RGB 模态和复杂时序推理,能力短板就暴露无遗。而要补上这块短板,光靠把模型做大显然不够,得从数据和评测的根上重建。

按作者的规划,CUHK-X 接下来会沿两条线扩展。一是引入参与者间的交互和更长时间跨度的多步骤活动,提升行为复杂度;二是补充音频、触觉、心率、脑电等信号模态,并覆盖更多室内环境与更广年龄、运动能力的人群,增强泛化性与生态效度。同时,它也会作为标准化教学资源,支撑传感器融合、数据标注与多模态推理等方向的研究与教学。

对于一个想要真正「读懂人」的智能体来说,这块拼图,才刚刚开始拼。

论文信息

论文第一作者为香港中文大学博士生蒋思阳,香港中文大学博士后袁牧和香港中文大学博士生纪祥等共同参与。指导导师邢国良教授为 ACM、IEEE 会士,担任 CUHK AIoT 实验室主任,曾获美国 NSF CAREER Award 与香港中文大学杰出研究奖;共同通讯作者为邢国良教授与陈鸿凯研究助理教授(香港中文大学)。该工作由香港中文大学联合伊利诺伊大学厄巴纳-香槟分校、哥伦比亚大学与匹兹堡大学共同完成。

参考资料:

https://arxiv.org/abs/2512.07136

编辑:LRST

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片