霍普金斯大学证实350个模型全军覆没，AI看不懂人类互动

SENSORO升哲科技

2025-04-29 18:51 ·北京

近年来AI模型发展迅猛，在代码生成、棋类游戏等领域已超越人类。但约翰霍普金斯大学最新研究表明，即便投入海量算力和百亿资金，现有AI系统仍无法理解真实世界的人类社交互动——这项被称为“察言观色”的核心能力仍是机器智能的致命短板。

研究团队让志愿者观看三秒短视频片段，评估其中人物互动特征；同时要求350余个AI模型（涵盖图像、视频和语言模型）预测人类评分。结果显示，人类评分高度一致，而各类AI模型准确率全面溃败，即便表现最佳的语言模型也仅靠预置文字描述勉强支撑。该成果即将在ICLR国际学习表征会议上发布。

实验设计：三秒视频揭示AI社交盲区

研究选取计算机视觉数据库中的双人互动视频，剪辑成三秒片段。志愿者需从1-5分评估互动特征，问题涵盖客观判断（“人物是否面对面”）到主观感受（“情绪积极或消极”）。人类评分高度趋同，暗示社交观察存在普遍认知基准。

AI模型组则分为三类：图像模型分析视频帧，视频模型处理动态影像，语言模型解析人工标注的文字描述。结果令人震惊：所有模型均无法复现人类共识，语言模型虽略胜一筹，但优势完全依赖预置的详细文字说明。

具身AI革命遭遇认知瓶颈

该发现正值科技巨头加速推进“具身AI”之际。Waymo自动驾驶出租车已在洛杉矶、凤凰城等城市与人类车辆混行，但因环境理解缺陷频现绕圈行驶等异常行为；Figure AI与宝马合作的工厂人形机器人、波士顿动力的拟真机器人，都亟需精准理解人类社交信号以避免安全事故。

“当前AI能识别图像中的物体和面孔，但无法理解场景中展开的故事情节。”论文合著者Kathy Garcia博士指出。研究负责人Leyla Isik教授强调，要实现养老护理机器人等愿景，必须突破动态社交情境理解的技术屏障。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴