沈俊潇是人工智能(AI)和混合现实(MR)交叉领域的前沿研究学者,也是一位执着的创造者。他认为,通过现有的AI(人工智能)和MR(混合现实)增强人类的能力,将有助于将人类的能力进一步延展,让人们向科技发出指令的方式更加便利。他不仅从技术的手段去使得技术的实现实际的功能,还从用户的角度,力求让技术的使用更加流畅。就读于在剑桥大学机器智能实验室(Machine Intelligence Laboratory)期间,沈俊潇师从Per Ola Kristensson教授,毕业后被布里斯托大学(University of Bristol)计算机科学院聘用为助理教授。沈俊潇的主要研究方向,是通过手势交互,进行文本输入,以及交互式AI应用程序(例如用于超级虚拟助手的上下文感知,多模态AI)这些混合现实的运用,这位具有剑桥大学计算机博士学位的创造者和实践者正在尝试开启一个从科幻到现实的新时代。

打开网易新闻 查看精彩图片

实时手势识别指环

沈俊潇最引人注目的贡献之一,是开发了一种基于手势的文本输入可穿戴设备,称为实时手势识别指环(“RingGesture”)。该指环是沈俊潇及其研究所的研究成果《RingGesture:基于指环的空中手势打字系统,由深度学习单词预测框架提供支持》的具体适用。 将指环佩戴在食指上,允许用户在空中打字,而无需接触物理键盘。想象一下,佩戴该指环的用户可以将手悬空,打字就像按下隐形按键那样,RingGesture可以捕捉手指的细微动作,意味着用户可通过手指的小幅度移动进行打字。

打开网易新闻 查看精彩图片

打字系统是通过人工智能和机器学习算法来实现的,这些算法可以根据这些动作预测用户想要输入的内容,工作原理之一是使用传感器——例如惯性测量单元(IMU),这些传感器可以跟踪手部运动,以及检测手势开始和结束时的电极。由于这一功能,戒指可以“知道”用户的手指在空中的位置,并将这些动作解释为特定的字母、单词或者其他指令。

为了实现用户的最佳体验,沈俊潇和他的团队设计了打字预测功能。就像现代智能手机在用户打字时建议单词一样,这种预测能力能够根据手部的运动进行跟踪并可以提供打字的预测。由于空中打字没有键盘触觉的反馈,用户在使用的时候对预测输入依赖性更强,这可以加快打字的速度,预测能力的实现,关键是使用人工智能,通过人工智能准确地预测用户需要输入的内容,从而加快打字的速度。

人机交互与混合现实(MR)

混合现实将现实世界与数字元素融合在一起,这是沈俊潇对未来科技发展的愿景。虚拟现实(VR)让人们完全沉浸在数字环境中,但是混合现实可以让用户同时与物理世界和数字元素进行交互。在沈俊潇看来,混合现实将会称为下一个大型计算平台,实现更自然、更具有人的主动性的人机交互

文本输入是任何现代计算体验的关键功能,例如,用户不必坐在电脑办公桌前,就可以通过AR眼镜看着虚拟界面,在空中打字。沈俊潇认为,AR眼镜实现这一功能的局限在于,无法使用多个摄像头来实现手部追踪的广阔视野。这一限制强调了对额外输入设备的需求。沈俊潇对此的突破在于,使用指环传感器来进行手部跟踪。这种方法提供了类似于 VR 眼镜中基于光线投射的空中手势打字的直观体验,可以将手部动作无缝转换为光标导航。这种方法提供了类似于 VR 眼镜中基于光线投射的空中手势打字的直观体验,可以将手部动作无缝转换为光标导航,并在不基于其他硬件的基础上,实现打字。

打开网易新闻 查看精彩图片

现有手势识别技术实现实时打字的挑战

手势如何替代键盘,即如何使得人们可以在空中打字,接下来需要解决的问题是,指环捕捉到的手势如何被计算机所理解,并能提高打字的准确性和输入速度。为此,沈俊潇创造了“Score Fusion”,这一新颖的、具有深度学习的单词预测工具,由三个部分组成,一为单词手势解码模型,二为空间拼写校正模型,三为轻量级语境语言模型。由于融合了三个模型,Score Fusion能够以更高的精度预测最可能的单词。第一个模型能够实现手势-单词之间的解码,要解决的问题是手势能够被计算机所理解,而拼写校正能够提高准确率,语境模型则能实现打字的预测。

最初,手势识识别只是一个人类的想象,甚至只存在科幻小说或电影当中,要将其变为现实,需要解决多个技术上的问题,而技术上的问题仅有在满足了用户的需求之后才视为解决。沈俊潇认为这是作为研究者的快乐所在,他让自己成为最挑剔的用户,并用这个标准要求自己的研究所需要达到的程度。

首先需要解决的是,手势能快速识别的问题,为此,沈俊潇想到两个问题,一是在机器深度学习识别能力时,如何供给大量的人体运动轨迹,二是如果手势做出后,如果用户不能得到反馈或者反馈的时间很长,用户就会失去耐心,由此不再有动力使用。沈俊潇认为,第一个问题可以通过模拟食指运动数据,这样可以节省大量的时间。由于收集用户数据通过模拟的方式实现,进而指导空中手势键盘设计的具体挑战,为了生成逼真的人体运动轨迹,沈俊潇将空中手势键盘部署在光学透视显示器上,允许用户通过可视化键盘布局中,用户自己的食指作出简单的单词手势来输入文本,沈俊潇引入了一种新颖的解码方法,该方法将用户的三维指尖手势轨迹直接转换为他们想要的文本。第二个问题则是手势的识别速度以及对手势作出反应的时间。从用户的角度出发,对手势识别的要求是,首先是单次手势即可激活,其次是激活后,避免滞后的反应。为了达到这一目的,沈俊潇通过提出一种新颖的手势分类器模型和新颖的单词激活算法组成的关键手势识别架构来解决这个挑战。该关键手势识别架构在四个单独的手部骨架手势数据手机进行评估,这样能实现高识别精度,从而达到快速反应。

沈俊潇对现有的模型的选择,实现手势-文字的无缝转换,实时手势识指环能够以每分钟27.3个单词的速度,速度最快了一达到每分钟47.9个单词。而根据美国公共行政协会(ASPA),一般人的打字速度为每分钟40个单词。而Score Fusion更是比传统的单词预测框架Naive Correction,将错字率减少了28.2%,而文本的输入速度又较之提高了55.2%。由于这些进步,RingGesture的系统可用性得分更是高达83分,表明其具有出色的可用性。

打开网易新闻 查看精彩图片

手势识别指环与人机交互的新时代

由于手势打字目前只是手势识别指环实现的一个功能,手势将能够进行更多指令,在不同的生活场景中得到使用。在不远的将来,手势识别可以控制智能设备,行动不便者可以通过手势控制家中的设备,比如开门,在进门前,就可以通过轻轻动一下手指,实现打开门的指令。另外一个应用是在虚拟环境中的导航,在虚拟现实和增强现实中,手势可以取代传统的输入设备,让用户仅用双手就能自然地与数字环境互动。

随着手势识别技术变得越来越成熟,它有潜力成为我们日常生活中与计算机交互的核心部分,想象一下,用简单的手势控制你的手机、笔记本电脑,甚至你的汽车,而无需接触任何物理控件。

沈俊潇的手势文字输入指环以及其对用户体验的执着,为人机交互的未来迈出了重要的一步。通过开发直观、基于手势控制的人工智能驱动系统,沈俊潇改变了人们与人工智能的互动方式。他的创新突破了现有的技术的可能性,将科幻小说中的概念(比如在空中打字)变成人们的日常。通过他的这项突破,沈俊潇似乎正在为一个崭新的时代铺平道路。或许在不久的未来,人们与数字系统的互动就像我们日常交流中使用手势一样自然,并能通过手势指令,让技术对这些手势作出精准的反应,使得人们的生活更加高效、便利。