235B参数也没用！港中文等发布7模态数据集，专测顶级VLM的感知盲区|上下文|序列|模态

新智元报道

【新智元导读】当下的多模态大模型，在Demo里能对着照片侃侃而谈，可一旦离开RGB画面，面对热成像、深度、毫米波这些真实世界里随处可见的信号，就集体「失明」。港中文AIoT 实验室联合UIUC、哥伦比亚大学与匹兹堡大学，用一个包含64,267个七模态同步样本的数据集CUHK-X，第一次系统地把这条「看得见却读不懂」的能力断崖量化了出来。最扎心的结论是，把模型参数堆到235B，照样救不回来。该工作已被ACM MobiSys 2026录用。

过去两年，VLM（视觉语言模型）的进步几乎都写在RGB图像上。给它一张照片，它能描述、能问答、能推理，看上去无所不能。

但把它放进真实的居家、养老或医疗场景，故事立刻变了样。夜里光线不足、被家具遮挡、出于隐私不能上摄像头，这些恰恰是日常监测最常见的工况，也恰恰是RGB最不擅长的地方。真正要扛事的，是热成像、深度、毫米波雷达、IMU这些非RGB模态。

问题在于，模型在这些模态上的表现，和它在RGB上的光鲜形成了刺眼的反差。根子也很清楚，训练和评测它们的数据长期是缺的。现有的人类活动识别（HAR）数据集绝大多数只给到粗粒度的 ⟨数据, 标签⟩，比如一条「跌倒」、一条「睡觉」，既没有连贯的语义描述，也不覆盖多模态。模型自然学不会「看懂」，更谈不上「读懂」。

三个能力台阶

要把这件事讲清楚，得先把「看懂人」拆成三个递进的台阶。

第一阶是识别（HAR），回答「这是什么动作」，本质是分类。

第二阶是理解（HAU），要求模型用自然语言描述一段活动序列，并判断当时的情境状态，比如是放松、平静还是匆忙。

第三阶是推理（HARn），在看完前序动作后，推断行为意图并预测下一步最可能发生什么。

举个例子。看到一个人「洗脸、刷牙、梳头」，识别只需要逐个贴标签；理解要能把它串成「一段晨间洗漱」；而推理则要据此判断「接下来他大概率要出门」。越往上走，越考验模型对上下文和因果的把握，也越接近智慧医疗、居家养老真正需要的能力。例如在阿尔茨海默病照护中，对日常行为的连续理解与预判，正是及时干预的关键依据。

图1　CUHK-X 在多房间真实家居环境中同步采集七种传感模态，并面向识别（HAR）、理解（HAU）与推理（HARn）三类任务统一建模。

CUHK-X

先有「真值」再采数据

针对这条断崖，CUHK-X 给出的答案是一个面向HAR、HAU、HARn三类任务的大规模多模态数据集与基准。它包含64,267个活动样本，覆盖7种同步模态、40种日常动作和30名参与者。

论文链接：https://arxiv.org/abs/2512.07136

项目主页　https://openaiotlab.github.io/CUHK-X/

代码链接　https://github.com/openaiotlab/CUHK-X

更关键的是它「反着来」的采集逻辑。一种偷懒的做法是把若干单模态数据集的粗标签拼到一起，再让LLM自动编描述。但这样极易制造时空矛盾，比如把「刷牙」和「吃饭」硬塞进同一个场景，可两者本就发生在不同房间、不同时段，逻辑上根本说不通。

CUHK-X反其道而行，采用了「先有真值」（Ground-Truth-First）的策略。它先用LLM把同类或跨类动作逻辑串联成连贯的生活场景描述（如把洗脸、刷牙、梳头、擦手、穿衣组织成完整的晨间场景），再对描述做语言风格扩展，并经四位研究生级标注员按物理可行性、场景一致性、时间因果与常识约束四个维度人工把关，最后才让参与者理解描述、自然表演，按描述去采真实数据。如此得到的 ⟨数据, 描述⟩ 配对，天然时空对齐、语义连贯。

图2　CUHK-X的数据生产链路，从动作筛选、场景化描述生成到按描述采集多模态数据，最终汇成三大基准。

在两个真实室内环境（客厅、厨房、卧室、浴室四类场景）中，CUHK-X用一套精心设计的传感器阵列同步记录七种模态。环境侧包括Goermicro Vzense NYX 650相机（同时输出RGB、深度、红外）、德州仪器IWR6843ISK毫米波雷达（60–64 GHz）和海康TB4117热成像相机（120×160）；可穿戴侧是五个 WitMotion WT9011DCL-BT50 IMU，分别戴在双手腕、双脚踝和腰部；骨架数据则由MMPose从RGB与深度帧估计出17个3D关节点。30名参与者中男女比例为40%比60%，年龄20–23岁。据作者介绍，这是首个同时覆盖RGB、深度、热成像、红外、骨架、IMU、毫米波雷达七种模态、并配有丰富文本描述的大规模活动数据集。

图 3　环境侧传感器与可穿戴 IMU 的部署方案。

图 4　同一组日常活动在七种模态下的同步可视化，直观体现各模态的信息密度差异。

图 5　CUHK-X 数据规模与类别分布概览。

三大基准六项任务

数据之外，CUHK-X 真正的杀伤力在于它的评测设计，六项任务几乎每一项都是冲着逼出模型短板去的。

HAR 基准下设 1 项任务，即 40类动作分类，检验各模态对识别模型的支撑力。HAU 基准下设 4 项任务，分别是描述比较（看模型生成的描述和真值语义有多接近）、上下文分析（判断动作执行时的情境状态）、动作序列重排（把打乱的动作还原成正确时序）和动作选择（从 40 个候选里挑出视频里真正发生的）。HARn 基准下设 1 项任务，即基于前序动作预测下一个最可能的动作，直击意图推理与因果推断。

被拉上测试台的，是 InternVL2.5-2B/8B、QwenVL2.5-3B/7B、VideoLLaVA-7B、VideoChatR1-7B 等一线 VLM；HAR 任务上还加入了 ResNet-50、PointNet、MotionBERT 等模态专用模型。为了看清「规模红利」，研究还额外评测了 Qwen-35B、QwenVL3-235B 和 Doubao-seed-2.0 等更大体量的模型。

四个反直觉的发现

跑完全套评测，CUHK-X 给出了几条相当扎心的结论。

发现一，模态之间存在明显的「鄙视链」，但弱模态并非没用。HAR 七模态平均识别准确率为 76.52%，视觉模态一骑绝尘：热成像拿到 92.57% 准确率、93.36% F1，RGB 与深度的 F1 分别为 91.28% 和 90.93%，骨架也有 79.08% 准确率。而 IMU 与毫米波雷达的独立准确率只有 45.52% 和 46.63%。判别力天然偏弱，但正是这两类模态，在遮挡、弱光和隐私敏感场景里提供着视觉模态给不了的互补价值。

发现二，参数越大不一定越强。模型规模实验显示，单纯堆参数并不能在所有任务和模态上普涨。最典型的是 QwenVL3-235B，在深度上下文分析任务上不升反降，从 0.422 直接掉到 0.286。即便是整体最强的 Doubao-seed-2.0，在同一任务上也只做到 0.552。换句话说，CUHK-X 抛出的难题，远没有被现有大模型解决。

发现三，会「推理」的模型，明显打得过会「描述」的模型。在 HARn 基准上，三种视觉模态的平均推理准确率达到 70.25%（最高 90.30%），其中 VideoChatR1-7B 这类推理模型显著领先于描述模型。前者能借助上下文理解和逻辑推断，把已观察到的动作和最可能的下一步关联起来；后者则常常被表面视觉线索带偏。

发现四，没有「全能选手」。在动作序列重排和动作选择这类任务上，呈现出强烈的模型-模态交互效应，没有任何单一模型能在所有模态上通吃。HAU 四项子任务的平均准确率只有 40.76%（最高也才 50.52%），描述比较任务上 VideoLLaVA-7B 拿到最佳 BERTScore F1（86.40%），但换一个模态、换一项任务，领先者又会易主。这种「测不出一个稳定赢家」的状态，恰恰说明了基准本身的区分度和挑战性。

对具身智能意味着什么

把这些发现拼起来，CUHK-X 其实是给整个具身智能社区提了个醒。当下 VLM 的强，很大程度上是「RGB 之强」；一旦进入真实物理世界那些绕不开的非 RGB 模态和复杂时序推理，能力短板就暴露无遗。而要补上这块短板，光靠把模型做大显然不够，得从数据和评测的根上重建。

按作者的规划，CUHK-X 接下来会沿两条线扩展。一是引入参与者间的交互和更长时间跨度的多步骤活动，提升行为复杂度；二是补充音频、触觉、心率、脑电等信号模态，并覆盖更多室内环境与更广年龄、运动能力的人群，增强泛化性与生态效度。同时，它也会作为标准化教学资源，支撑传感器融合、数据标注与多模态推理等方向的研究与教学。

对于一个想要真正「读懂人」的智能体来说，这块拼图，才刚刚开始拼。

论文信息

论文第一作者为香港中文大学博士生蒋思阳，香港中文大学博士后袁牧和香港中文大学博士生纪祥等共同参与。指导导师邢国良教授为 ACM、IEEE 会士，担任 CUHK AIoT 实验室主任，曾获美国 NSF CAREER Award 与香港中文大学杰出研究奖；共同通讯作者为邢国良教授与陈鸿凯研究助理教授（香港中文大学）。该工作由香港中文大学联合伊利诺伊大学厄巴纳-香槟分校、哥伦比亚大学与匹兹堡大学共同完成。

参考资料：

https://arxiv.org/abs/2512.07136

编辑：LRST