「如果智能眼镜的隐私争议和设计尴尬让你却步,有没有一种更隐蔽的方式让AI看见世界?」华盛顿大学的研究团队用一对改装耳机给出了答案。

他们开发的VueBuds系统,把微型摄像头塞进普通无线耳机,让用户用语音向AI询问眼前的事物,约1秒内获得回答。不用戴眼镜、不用举手机,低头看一包外文零食,耳机直接告诉你这是什么。

打开网易新闻 查看精彩图片

为什么选耳机?智能眼镜踩过的坑

Meta的Ray-Ban智能眼镜卖了两年,市场反应始终温吞。问题很现实:谁想戴着明显带摄像头的眼镜走进会议室?谁愿意让对面的人永远猜不透你是不是在录像?

VueBuds的设计刻意回避这些雷区。低分辨率黑白摄像头只拍静态照片,不录视频;数据本地处理,不上传云端;录制时有可见指示灯,还能一键删除已拍图像。

研究团队的原话是:「把视觉智能嵌入人们已经在用的设备」,跳过说服用户接受新硬件形态的硬仗。

技术妥协:用「模糊」换「能用」

摄像头比麦克风耗电得多,这是可穿戴设备的老大难。团队干脆放弃高清传感器,改用米粒大小的摄像头,输出低分辨率灰度图。

这个妥协带来连锁好处:功耗压下来,蓝牙传输吃得消,响应速度反而更快。左右耳机图像合并成单帧处理,整体响应约1秒;如果分开处理,要拖到2秒。

摄像头朝外倾斜,视野98到108度。极近物体有盲区,但研究团队测试后发现,日常场景基本不受影响。

实测数据:翻译偏好耳机,数东西还是眼镜强

74人参与对比测试,对手是Meta Ray-Ban等智能眼镜。结果有点意思:

翻译任务,参与者更倾向VueBuds;要数清楚有多少个物体,智能眼镜表现更好。具体准确率:翻译和物体识别约83-84%,识别书籍标题和作者可达93%。

低分辨率+本地处理,整体表现却能打平。这说明什么?很多场景不需要4K画质,「够用且快」比「高清但慢」更贴合实际需求。

产品逻辑:从「创造新习惯」到「寄生旧习惯」

VueBuds的核心洞察很朴素:耳机已经是日均佩戴数小时的设备,视觉AI寄生上去,比另起炉灶做眼镜聪明得多。

翻译外文包装、辨认路边招牌、识别书架上的书——这些场景的共同点是:用户本来就要低头看,耳机顺手播报,动作链条自然闭合。智能眼镜的问题在于,它强迫用户改变行为模式:先抬眼、再确认、再等待反馈。

当然,盲区存在、分辨率有限、功能边界清晰。研究团队没打算做全能设备,而是锚定高频刚需场景,用最低成本验证可行性。

这个路线如果走通,下一步可能是与现有耳机品牌合作,把摄像头模组做进下一代产品。毕竟,说服用户换一副带摄像头的耳机,比说服他们戴一副带摄像头的眼镜,门槛低一个数量级。