在第一期新脑论坛中,上海交通大学计算机科学与工程系二级教授吕宝粮老师以《基于多模态情感脑机接口的抑郁症客观评估》为题进行了分享。下文为讲座逐字稿,更多精彩回顾,还请关注“NeuS”公众号,我们将陆续为您更新。

论坛嘉宾

吕宝粮

上海交通大学计算机科学与工程系二级教授

上海交通大学医学院附属瑞金医院广慈特聘教授、IEEE Fellow。1994年获日本京都大学工学博士学位,现任上海交通大学智能交互与认知工程上海高校重点实验室主任、上海交通大学清源研究院执行院长、上海交通大学附属瑞金医院脑机接口与神经调控中心共同主任、上海交通大学附属瑞金医院脑病中心-米哈游联合实验室主任和上海零唯一思科技有限公司首席科学家。担任IEEE Transactions on Affective Computing、 Journal of Neural Engineering、IEEE Transactions on Cognitive and Developmental Systems、《模式识别与人工智能》和《智能科学与技术学报》编委。荣获2018 IEEE Transactions on Autonomous Mental Development最佳论文奖、2020年度吴文俊人工智能自然科学一等奖、2021 IEEE Transactions on Affective Computing最佳论文奖、The ACM Multimedia 2022 Top Paper奖和2022亚太神经网络学会杰出成就奖,入选爱思唯尔2020和2021“中国高被引学者”榜单。主要研究领域包括仿脑计算理论与模型、深度学习、情感智能和情感脑机接口。

吕宝粮:很荣幸跟大家分享我们在情感脑机接口,特别是在抑郁症客观评估方面,近期的一些研究工作。我今天介绍的内容属于非侵入式脑机接口,题目是《基于多模态情感脑机接口的抑郁症客观评估》,顺便也和大家谈一下其中的机遇与挑战。

先介绍一下研究背景。大家可能或多或少地都听说过,目前抑郁症的发病率在逐年增加,我国抑郁症患者人数已经超过了9000万。我们国家现在人口出生率在降低,政策上希望年轻人能生二胎或三胎,但产后抑郁这类特殊人群的比例也在增加,这是一个比较严重的问题。另外,还有一个很严峻的挑战就是抑郁症患者的低龄化,高中生和大学生的发病率也在逐年增加。但是,对于上述局面,我们国家的精神科医生确很匮乏。在美国等发达国家,每十万人大约有11-12名精神科医生。而我国每十万人还不到两名。面对人民大众精神健康的这一重大需求,我们正在探讨基于多模态情感脑机接口的抑郁症客观评估系统与数字疗法技术。

先让我们看看目前临床精神科医生遇到的问题是什么。因为精神科医生主要是通过视觉、听觉等方式,来与患者进行交流,所以这里最大的问题是没有明确的生物标记物,医生只能凭经验判断,这就导致了诊断时间会比较长。如果医生是一个新手,诊断的准确率可能也会比较低。换言之,我们没有一个客观的指标,这是目前抑郁症诊断的最大问题。此外,抑郁症患者服药以后,也没有客观的指标。如果是高血压或糖尿病这类疾病,现在我们都有比较便捷的仪器来评估服药的疗效,但精神疾病根本没有这样的仪器可用。我们的想法也比较简单,就是希望能克服现在精神科医生主观、定性诊断所存在的问题,去寻找一些客观的指标。

现在有很多抑郁量表,它们是经过全球的精神科医生几代人的努力和探索而形成的。我们希望能够把这些经验和量表转化成一些情感交互实验。当然,这不是直接、简单的转换,其中很重要的创新点是,如何把这些量表背后隐藏的神经科学、认知科学、心理学和精神临床医学的知识和原理,变换成一些交互实验。如果能科学地变换成一些交互实验,我们就有可能通过多模态数据的采集与分析,找出抑郁症的客观评估指标,也就是生物标记物。

下面这幅图是我们现在正在做的一个初步的实验,人机交互实验包括四部分,这些任务分别是评估被试的睡眠状态、情绪状态、注意力和反应时间等。

接下来简略地介绍我们在前期所做的相关研究工作。我从日本留学回国工作,今年刚好20年。回国以后,我刚开始做的研究是基于脑电信号的疲劳驾驶检测,后来用脑电信号、眼动信号和眼电信号进行情绪识别和睡眠质量评估。总体来讲,我们在正常人群上的研究结果表明,人的疲劳、情绪和睡眠质量都可以通过脑电等生理信号进行比较精确地表征和客观评估。

有了这些研究经验,我们就在思考是不是可以把这些技术应用到抑郁症患者身上。因为抑郁症患者的一些症状表现,就是睡眠不好,对情绪的反映和正常人有差异。正是基于这样的考虑,我们在2015年启动了基于多模态情感脑机接口的抑郁症客观评估研究。

实际上,如果要开发基于情感脑机接口的抑郁症客观评估系统,我们需要做很多前期的技术准备工作,因为情绪自身非常复杂。另外,抑郁症也受到多种因素影响,比如说有男女差异,基本上女性的发病率是男性的1.7倍到2倍。此外,抑郁症还与生活环境等因素有关。

从脑机接口的角度看,我们面临很多挑战,比如要设计新的实验范式,要构筑高精度的情感计算模型等,这些问题都需要一一解决。

下面这张PPT显示的是我们构建的一个抑郁情绪评估系统的雏形,主要使用了两种生理信号,一种是脑电信号,由干电极脑电帽采集,另一种是眼动追踪信号。

在前期的研究中,我们发现脑电和眼动这两类生理信号对情绪识别非常有效,下面这张PPT是瑞金医院的护士正在试用我们的抑郁情绪评估系统的场景。

这个实验目前做下来大概需要半个小时,下面这张PPT的右边列出了一些我们从眼动仪获取的眼动特征。眼动仪分桌面式和眼镜式,可以根据需求确定采用哪种款式。

那为什么说我们现在可以做这件事情。我认为主要有以下四方面的因素。首先,现在有很多比较好用的可穿戴设备,比如说我刚才提到的眼动仪、干电极脑电帽等。另外,还有无线感知技术、电子手环、智能手表等。这些可穿戴设备可以比较方便地获取我们人的各种生理信号。

第二点,我们现在有非常强大的计算能力和数据传输能力,比如我们用5G可以非常好地传输信号,我们也可以用边缘计算技术快速地处理各种数据。

第三点,深度学习发展迅猛,可能在10年前或5年前我们无法克服的一些困难,目前就有了比较好的解决方案。比如说,脑电信号非常微弱、被试之间差异很大、场景之间的差异也很大,现在我们可以用迁移学习算法比较好地解决这些差异性问题。另外,我们有很好的多模态深度学习模型,可以把大量的不同传感器获取的数据进行有机融合。

最后一点,在过去10多年或者是更长时间里的基础研究成果,也告诉我们这件事情是可以做的,包括脑电信号情绪识别的稳定特性、脑电信号与眼动信号的互补特性等。

实际上,如果我们在实验室做脑机接口的研究,大家肯定希望这个模型越准确越好,也会尽可能地利用可用的所有传感器获取人的各种生理和非生理信号。但在实际应用中,在保证一定精度的情况下,我们希望设备尽可能的简单,不仅需要考虑设备的成本问题,还需要考虑用户佩戴的舒适性问题。

无论如何,多模态信号是情感脑机接口的一个重要因素。神经科学的研究结果已经告诉我们,人的情绪状态不可能用一种生理指标来度量。理论上讲,情绪状态是无法精确描述的,只有通过多种信号来推断。

在情感脑机接口以外的情感计算领域,大家通常会使用语音、面部表情、姿态等比较容易获取的信号构建情绪识别系统。这些非生理信号的优点是使用的传感器都是非接触式的,而且设备比较廉价。但缺点也非常明显,这些信号对情绪的刻画不够细腻。比如说,如果用这些数据来做抑郁症客观评估,那精度是远远达不到的,因为我们无法仅从面部表情或语音对抑郁症做出客观评估。作为生物标记物,无论是从神经科学还是从临床医学的角度看,生理信号都是最好的,尤其是头皮脑电信号。尽管脑电信号还存在很多问题,比如说信号比较难处理,信号比较微弱,但是它是目前为止作为可穿戴设备能够落地应用的最好选择。刚才只介绍了脑电信号和眼动信号,其他的一些生理信号也可以作为情感脑机接口的多模态信号。

下面介绍一个我们最近开发的一种新的情绪诱发素材——油画。为什么要用油画作为情绪诱发素材呢?我认为情感脑机接口与运动脑机接口有一个很大的差异,就是前者需要更贴合实际生活的情绪诱发素材和情绪诱发范式,不像运动想象脑机接口那样可以用比较单一的范式。这就像精神科医生在门诊看病一样,需要一段时间。为什么需要一段时间?因为需要观察病人在一段时间内的情绪状态变化,一般情况下医生不可能通过一瞬间来判断。油画有很多优点。首先,它是静止的,相对于视频,眼动轨迹等眼动特征在油画上比较容易分析,比较容易可视化。相对于一般的照片来讲,油画包含了作者更深层次的创作思想与创作意图。此外,大多数经典的油画没有版权,易于素材的收集。

针对这种新的情绪刺激素材,在后续设计情绪诱发范式时,我们可以更加贴近实际生活。这是我们实验室硕士研究生罗帅同学做的一个工作,发表在今年的IEEE国际生物医学工程会议(EMBC 2022)上。

我们收集了114幅油画,分成了三类——正向、负向和中性。看上面这张图,从左到右,分别是负向、中性和正向。比如说,当我们欣赏蒙克的《呐喊》时,大多数人会被诱发出负向情绪。我们挑选这些油画时,分别招募了受过专业艺术教育的学生和没有接受过专业艺术教育的学生共同打分。对于单幅油画,如果超过半数的人投票到了同一个情绪类别,且平均打分超过一定阈值,我们认为这样的油画对诱发被试的情绪是显著的,才会被选到油画素材库里。

这是一个很经典的实验范式,开始先做一个说明,然后让被试观赏油画20秒,这之后让被试给油画打分。做完一个完整的实验,被试需要观赏40幅左右的油画。

在被试观看油画的过程中所获取的眼动追踪信号,需要被转换成一个时间序列。我们通过时间轴上每帧的图像来提取眼动数据的关键特征。在前期的研究中,我们已经发现了一些对情绪识别比较重要的特征,如瞳孔直径、扫视等。这里我们通过一个比较简单的计算方法将其形式化成一个时间序列。

这个视频显示的是一个被试观看油画的过程,眼动轨迹能够反映被试在看什么地方,看了多久。实际上,与脑电信号相比,眼动信号相对比较容易处理。

我个人认为,眼动信号是一个比较适合给医生作为临床指标的生理信号。如果未来能找到生物标记物,这是一种比较理想的信号。脑电信号的问题在于佩戴不够舒适,信号噪音比较难处理。

我认为情感脑机接口与其他的一些技术是类似的,也就是需要用软件或算法来定义世界。因为我们有很强大的算法,所以我们可以通过算法来代替或者改进硬件达不到的功能。举个大家可能都有体会的例子,如果你拿着iPhone12在上海外滩给朋友拍夜景,相比起iPhone13来说,就会逊色很多。我想iPhone13里的硬件可能提升的不会那么大,但算法的提升可能会很大。所以说,构建多模态情感模型非常重要,特别是对眼动和脑电信号来说,它们有很好的互补特性,可以提升情感模型的识别准确率。我觉得情感脑机接口,或者脑机接口整个领域,我们都需要用最新的深度学习来实现一些硬件完成不了的功能。

下面,跟大家分享我们实验室最近的两项工作。

一般来说,我们在家庭环境里很难使用脑电帽。下面这张图是几年前我们在参加脑机接口竞赛时的照片。要给小朋友把脑电帽戴好,我们至少需要花半个小时以上的时间,实际上非常麻烦。可想而知,目前的这种设备在家里是没法佩戴和使用的。况且,大家现在总觉得佩戴的舒适度不够。另外,现在的设备还都比较贵。所以,我们想能不能在训练模型的时候采集脑电和眼动两种信号,但在实际使用时,我们不需要佩戴脑电帽,把脑电信号这个模态撤下来。在这项研究工作中,我们部分解决了这个问题。

这里主要是利用最近的对抗学习思想。在训练模型的时候我们使用脑电和眼动信息,但训练结束之后,在使用阶段,只需要眼动信号,而不再需要脑电信号。当然,这会导致模型性能下降。下图右边这个表表示如果脑电和眼动信号都用上,它能达到的识别率。如果单独用眼动或单独用脑电,两者的识别准确率差不多。

现在在训练阶段,我们把脑电和眼动数据都用上,但在测试的时候只用眼动信号。从表里可以看出,尽管比原来脑电和眼动全用时,性能有所降低,但还是在一个可接受的范围内。当然性能也会随着数据量的增加而提升,如果后续有更好的算法,还有性能提升的空间。

下面介绍第二个工作。大家都知道,现在自监督学习的功能非常强大,为了解决脑电信号标号难获得和脑电信号易受损等问题,今年我们实验室的博士研究生李芮同学提出的一个基于自监督学习的多视角掩蔽自编码器架构*。

*https://dl.acm.org/doi/10.1145/3503161.3548243

构建情感脑电数据集时,脑电数据的精确标注非常费时,理论上讲也很难获得大量进行了精确地标注的数据。此外,脑电信号噪音非常大,特别是头皮脑电,因为它们是微伏级的。

为了解决上述问题,我们应用了最新的机器学习算法,比如Transformer算法。李芮同学这个工作的特点是,把脑电信号的频谱特性、空间特性和时间特性都一起加以考虑。

由于时间关系,我不再详细介绍模型的工作原理,感兴趣的朋友可以下载一下这篇论文。这里分享一下实验结果,看看这个模型的性能到底怎样?我们使用了所有的有标签的训练数据,比较了 SEED、SEED-IV两个公开数据集,这两个数据集都是我们实验室自己开发的。

在这两个数据集上,我们比较了有监督学习和一个经典的自监督对比学习模型,最后一个是我们提出的模型。从这个表我们可以看到,由于我们的模型从大量无标签数据中学习了脑电的通用表征,因此我们模型的准确率会高于有监督学习模型。这体现了这项工作最重要的一个出发点,如果有标签的训练数据不够多,或者这个标签数据有噪音,那我们该怎么办?我们怎么处理才可以得到比较好的结果?我们做了一个比较,比如在标号的数据有限的情况下,看性能的变化如何。从实验结果可以看出,实际上我们这个模型的鲁棒性非常好,不管是 10 个标签,20 个标签,还是 30个标签,相对的变化实际上是很小的,在两个数据集中都表现这样稳定的性能,这也可能是由于我们选取的这些少量有标签的数据都来自同一个视频片段且彼此相邻、缺乏多样性导致。

另外,如果标签数据有损坏,比如我们要长时间佩戴脑电帽,一个可能是会接触不良,或因为出汗等原因数据有损坏。在这种情况下,我们需要一个非常健壮的情感模型。下面我们看一下模型的性能变化,在损坏了30%,50%和70%的情况下,我们这个模型依然有比较好的表现。

最后,我们用混淆矩阵可视化一下结果。

下面这张图显示了一个掩蔽脑电信号的程度,最左边是原始脑电,白色区域是被掩蔽掉的部分,黑色是原来的状态,越往右被掩蔽的比例越大。从这张图我们可以看出,到掩蔽了70%时,模型依然可以比较好地恢复出原来的状态。从可视化的角度看,这也说明了我们这个模型为什么可以有比较好的性能的原因。

总体来讲,我认为我们目前正处在把多模态情感脑机接口技术应用于抑郁症客观评估的发展过程中。当然,还有一些其他的工作我们也可以做,比如我们最近和瑞金医院麻醉科,一起开展基于多模态情感脑机接口的焦虑和紧张情绪的客观评估研究。

还有很多问题需要我们去解决。我简单列举几个,首先我们要设计更加贴近实际生活的情绪诱发范式,不能依靠传统的范式,比如stroop、n-back等。其次我们需要探寻客观评估抑郁症的多模态生物标记物,一旦我们能够找到这样的生物标志物,将是精神疾病诊断的颠覆性发现。再者,从硬件的角度来说,我们希望能够开发佩戴更加舒适的干电极脑电帽和更多种类的生理信号采集设备。最近我们已经可以用WiFi信号来探测脉搏和呼吸,我认为这是一个非常好的发展趋势和技术手段。最后,我们需要开发更高效的深度学习模型,来构建一个跨个体、跨场景的高精度、高鲁棒性的情感模型。

我个人认为我们的终极目标是可以实现的,但需要多长时间,还需要我们共同努力。也就是说随着我们不断发现生物标记物,我们就可以把目前以量表和医生为金标准的诊断方式,转变成一个以客观指标为金标准的诊断模式。像糖尿病、高血压这类疾病那样,实际上我们都是采用客观指标来诊断,而不是根据量表和医生的经验。

为了实现这个目标,去年12月我们和米哈游公司联合成立了一个初创公司,叫零唯一思。在高校,我们现在讲究破“四唯”,所以我们取名“零唯”,就是不为眼前利益,“一思”,希望做一些从0到1的原始创新,刚好“零”“一”代表数字。我们近期的目标是开发抑郁症客观评估系统和数字疗法技术,现在也在招收各类人员,如果大家有兴趣的话,可以看一下公司的主页。

我们目前正在开发的两个产品,第一个称为情绪“X”光机,将来在医院里会使用这套系统。只要是与情感障碍相关的疾病,通过这套系统就可以给出一个客观、定量的评估报告。就像现在,如果你发高烧去医院看医生,医生基本会给你开一个处方,让你去拍一个x光片,看看肺部是否出问题了。第二个产品我们称为是孕产期卫士,主要是对孕妇、产妇的抑郁状态进行实时监测、预警和数字疗法。

科学上的挑战在于我们是否能找到抑郁症客观评估的生物标志物,在技术上我们则要突破一些瓶颈,比如说情绪诱发范式、生理信号获取技术等。整体来讲,我们希望通过这样一些技术,在抑郁症的前期,也就是在阈前,能及早发现和预警。

最后是我对情感脑机接口与未来通用人工智能发展的一些思考。

首先,我个人认为我们现在处在初始阶段到第一阶段的过渡期,我们大多数人工智能基本都是纯逻辑智能,和情感没有关系,比如说阿尔法狗等。目前,我们正在向第一阶段迈进,也就是对人的情绪进行量化和建模,从而实现情绪识别与情绪调控,这包括正常人和病人。实现这一阶段的目标之后,我们需要迈入第二个阶段,让机器对环境有全面的感知,让机器具有自主学习能力,并形成自我。

在未来,我认为机器是可以具有像我们人类一样的情感,它也会具有意识和创造性。总体来讲,我认为通用人工智能或强人工智能,它一定是我们现在的纯逻辑智能与情感智能的有机结合。而赋予机器像人类一样的情感,也能更好地为人类服务。

主讲:吕宝粮

整理:海星、光影 | 校对:光影 | 排版:Sheryl L