微软：这个AI应用能帮助视障儿童找到社交自信|人脸识别|奥斯卡|微软|盲人|视障

在日常社交场合中，人们通常会采用各种形式的交流方式，除了文字交流、谈话等直接的方式，眼神、姿态、动作也是人与人沟通的关键方式。然而，正常的社交为盲人、视障人士带来诸多困难，就像电视里常演的那样，盲人在说话的时候通常不会对着其他人，因为他们难以定位周围人的位置，而且也无法确定对方是否在看着他说话。

PeopleLens

对于天生失明的孩子来讲，与周围人社交、互动更加困难，在一群人交流的场景中，他们可能需要将头放在桌子上，用一只耳朵来定位周围讲话的人。而这就造成他们在正常社交技能上的缺失。也就是说，盲人/视障人难以像普通人一样专心交流，很难自然流畅的保持话题，进而产生社交障碍。

于是，为了训练失明/视障儿童的社交技能，帮助他们与同龄人正常互动和交流，微软研发了一种基于AR眼镜的人脸识别和定位系统：PeopleLens。该系统的特点是通过摄像头来定位周围的人，并将他们的坐标组成一个3D地图网络，帮助失明/视障儿童定位这些人。此外，它还可以帮助识别这些人的名字、眼神，并通过空间语音来提示用户。

具体来讲，其具有五大功能：识别眼前人的身份；提示你有人在看你；通过声音帮你定位周围的人；用声音引导你转头面向特定的人；用LED灯提示周围的人你在看他/她。

灵感来自残奥会

据青亭网了解，微软这一系列研究的灵感，实际上来自2016年的巴西里约热内卢残奥会，其目的是在很多人的社交场合中，帮助盲人/视障人士处理和不同人的对话，弥补眼神和肢体交流的缺失。

Project Tokyo

在过去几年里，微软的AI团队持续利用计算机视觉技术来帮助盲人/视障人士感受世界，以及识别周围的人，曾推出可识别照片内容的Seeing AI应用，或是基于HoloLens的人脸识别系统Project Tokyo等等。

在Project Tokyo基础上，微软又研发了一款HoloLens人脸识别应用：PeopleLens。与Project Tokyo相似，PeopleLens也是通过计算机视觉来识别人脸，然后通过语音提示来帮助盲人/视障人士识别周围的人。区别在于，PeopleLens将周围的人定位，并生成一种地图网络（People Map），当HoloLens用户靠近周围人所在的位置时，系统便可以快速识别并说出这个人的名字。此外，还通过语音提示来引导HoloLens看向特定的人。

也就是说，PeopleLens不再只是单纯的识别人脸，而是进一步定位并保存周围人的位置，好处是响应速度更快。

微软表示：PeopleLens通过定位和识别空间中的人，帮助盲人、视力障碍人士了解周围的社交环境。它还结合了基于心理学、语言治疗的研究和实验成果，通过一系列游戏来训练盲人/视障人士的社交技能，允许他们更好的与同龄人交流。

技术细节

据了解，PeopleLens是一个开放的AI系统，它可以增强盲人/视障人士的日常社交体验，帮助他们更好的感知世界。它需要结合AR头显来运行，比如Nreal Light。与基于HoloLens的Project Tokyo相比，PeopleLens更轻量化，Nreal Light更接近普通眼镜形态。

PeopleLens采用了5种计算机视觉算法，可持续定位、识别、追踪和捕捉附近人的注视方向。也就是说，它可以帮你识别附近看你的人，并根据空间音频提示找到这个人。当你得到其他人注意力时再开启对话，体验感会更自然、效率也更高。

PeopleLens可以帮助盲人/视障人士建立一个3D社交地图，这个地图旨在帮助他们了解环境中不同人的定位、距离。创建地图的好处是，即使用户背对着其他人，或其他人不在HoloLens追踪范围内，其位置也会记录在实时更新的地图中。

细节方面，PeopleLens利用空间音频来念人名，也就是说将空间信息与人名结合，帮助用户根据声音传播方向来定位其他人的距离和所在地，并进行系统的记忆。

AR眼镜还可以通过灯光等形式，提醒周围的人他们的追踪状态，如果你不想进入AR的定位范围，在看到LED灯光后可以躲开。这种方式可以一定程度上替代人与人互动时的眼神交流。（白光表示检测到人的位置，闪烁绿光代表人脸识别成功）

值得注意的是，PeopleLens的面部识别是基于自愿收集的，人们可以上传几张自己的照片来注册系统，这些照片不会被储存，而是被系统转换成可识别的面部数据。

PeopleLens在10米范围内识别到的人用撞击声表示，当这个人距离用户4米以内时，PeopleLens会念出其名字。如果这个人的脸没有正面对着PeopleLens的追踪范围，系统会通过声音来引导用户看向这个人，如果识别到注册的用户则会念出名字，如果识别到未注册的人则通过咔哒声来确认。

应用场景

对于盲人、视障人士，PeopleLens是一种寻找朋友的方式，也是一种提升反应能力和社交自信的工具。通过一系列培养注意力的交互游戏，还可以进一步提升盲人/视障人士的空间感知能力，让他们更容易和周围的环境互动。

此外，也可以通过交互游戏来训练盲人/视障人士的社交能力，比如PeopleLens在检测到周围有人时，会发出咔哒声，识别到人脸后，会播放碰撞声，然后念出这个人的名字。在听到咔哒声，想要寻找这个人时，会听到一种类似于橡皮筋拉伸的声音，其音量会根据你跟这个人之间的距离而变化，直到你面对着这个人时，会发出响亮的咔哒声，向你确认定位成功。

这种声音提示，可以帮助盲人/视障人士快速发现周围的人，通过改变/引导注意力，来发起或结束对话。

科研人员解释，这参考了儿童学习的方式，比如当婴儿指着天空时，父母说“鸟”，他/她便会将语音和视觉匹配。而对于视力不佳的孩子来讲，他们的注意力通过听觉来表现，因此PeopleLens试图将听觉和空间方位结合，帮助他们在空间中导航。

除此之外，用户还可以通过连续敲击声的次数来识别不同方向有多少个人，比如在教室里，如果一个方向有三个人，他们可能是在讨论题目，如果听到一连串敲击声，可能是一群孩子在课桌前看书。你还可以在周围寻找好友奥斯卡，当他看到AR头显上的LED灯光时，可以移动到头显摄像头可识别的位置，当你识别到奥斯卡后，可以根据奥斯卡的位置来分析他的姿态，如果奥斯卡在坐着，那么你也可以抓一把椅子坐在他旁边。参考：微软