近年来AI模型发展迅猛,在代码生成、棋类游戏等领域已超越人类。但约翰霍普金斯大学最新研究表明,即便投入海量算力和百亿资金,现有AI系统仍无法理解真实世界的人类社交互动——这项被称为“察言观色”的核心能力仍是机器智能的致命短板。

研究团队让志愿者观看三秒短视频片段,评估其中人物互动特征;同时要求350余个AI模型(涵盖图像、视频和语言模型)预测人类评分。结果显示,人类评分高度一致,而各类AI模型准确率全面溃败,即便表现最佳的语言模型也仅靠预置文字描述勉强支撑。该成果即将在ICLR国际学习表征会议上发布。

实验设计:三秒视频揭示AI社交盲区

研究选取计算机视觉数据库中的双人互动视频,剪辑成三秒片段。志愿者需从1-5分评估互动特征,问题涵盖客观判断(“人物是否面对面”)到主观感受(“情绪积极或消极”)。人类评分高度趋同,暗示社交观察存在普遍认知基准。

AI模型组则分为三类:图像模型分析视频帧,视频模型处理动态影像,语言模型解析人工标注的文字描述。结果令人震惊:所有模型均无法复现人类共识,语言模型虽略胜一筹,但优势完全依赖预置的详细文字说明。

具身AI革命遭遇认知瓶颈

该发现正值科技巨头加速推进“具身AI”之际。Waymo自动驾驶出租车已在洛杉矶、凤凰城等城市与人类车辆混行,但因环境理解缺陷频现绕圈行驶等异常行为;Figure AI与宝马合作的工厂人形机器人、波士顿动力的拟真机器人,都亟需精准理解人类社交信号以避免安全事故。

“当前AI能识别图像中的物体和面孔,但无法理解场景中展开的故事情节。”论文合著者Kathy Garcia博士指出。研究负责人Leyla Isik教授强调,要实现养老护理机器人等愿景,必须突破动态社交情境理解的技术屏障。