Scientific Reports ：植入式脑机接口技术在ALS患者中进行在线语音合成|als|声学|植入式|脑机接口技术

近日美国约翰霍普金斯大学医学院的Miguel Angrick 、Shiyu Luo等人在 Scientific Reports 上发表了题为：Online speech synthesis using a chronically implanted brain–computer interface in an individual with ALS的研究论文。该文章介绍研究人员使用了慢性植入脑机接口来在线合成可理解的单词，结果显示80%的合成单词可以被人类听众正确识别，证明肌萎缩侧索硬化症(ALS)患者可以使用脑机接口生成合成单词并保留自己的声音特征，为基于语音的脑机接口提供了进一步的稳定性证据。（2024年4月26日出版）

脑机接口(BCI)技术利用颅内电极记录大脑活动，重建和合成语言，为失去说话能力或由神经系统疾病导致语言障碍的人提供新的交流途径。神经系统疾病如肌萎缩侧索硬化症(ALS)会影响语言产生和运动，但保留认知功能，导致沟通障碍。植入式BCI已经展示了使用多种大脑控制策略建立和维持交流的可行性，绕过肌肉弱点。最新的研究表明，大脑活动可解码语音，输出文本和声学语音，携带更多语言信息。虽然解码主要报道在无语言障碍的个体中，但还需探索在运动语言障碍患者中的适用性。近期研究显示从ECoG网格或微电极获取的神经活动可用于恢复构音障碍患者的语言。这些成果为多模态言语神经修复系统的实现铺平道路。这些发现为未来研究提供了广阔的发展空间，以帮助运动语言障碍患者恢复语言能力。

研究概述

基于脑电图(EEG)、功能近红外光谱(fNIRS)或功能磁共振成像(fMRI)等非侵入性模式的脑机接口已被研究用于语音解码应用。这些研究主要集中在想象的语言上，以避免受到运动伪影的污染。虽然基于非侵入性方法的语音解码是脑机接口领域的一个重要分支，因为它们不需要手术，而且更容易被广大人群采用，但与植入式脑机接口相比，它们目前的技术状况存在缺点，因为它们缺乏时间或空间分辨率，或者目前不适合在家中使用。基于此，本研究提出了一种自定节奏的脑机接口，将大脑活动直接转化为与用户声音特征相似的声学语音，其中大多数合成单词具有足够的可理解性，可以被人们正确识别。

这项研究使用了三个递归神经网络构成的闭环语音合成器，将患有ALS的男性参与者的脑部活动转化为声学语音。具体步骤包括从ECoG信号提取特征，使用神经语音活动检测(nVAD)模型识别和缓冲高伽马活动帧序列，提取语音片段，通过双向解码模型将高伽马特征映射到LPC系数，最终利用LPCNet声码器将其转换为声学语音信号。

图1. 闭环语音合成器概览。(A) 从两个8×8 ECoG电极阵列中获取来自64个电极的神经活动(用橙色标出)，这些电极覆盖了面部和舌头的感觉运动区域，以及上肢区域。(B) 闭环语音合成器提取高伽马特征，以揭示尝试语音产生的语音相关神经相关性，并将每帧传播到神经语音活动检测(nVAD)模型(C)，该模型识别并提取语音段(D)。当参与者说完一个单词时，nVAD模型将整个提取序列的高伽马活动转发到一个双向解码模型(E)，该模型估计声学特征(F)，可以转换为声学语音信号。(G) 合成的语音作为声学反馈播放。

通过使用闭环语音合成器提取高伽马特征和使用神经解码模型，将患有ALS的男性参与者的神经活动转化为声学语音。训练时对参与者提供声音反馈，实现了可靠的声学语音合成，捕捉到参与者自然语音的细节和特征。听力测试结果显示，80%的合成词能够被人类听众正确识别，表明合成方法具有较高的可理解性。在实验中，参与者的自然语言质量也得到了评估，测试听者几乎能准确识别所有关键词。

图2. 合成单词的评估。(A) 显示了经过时间对准的原始和重构的声学语音波形及它们的频谱表示。(B) 展示了在闭环会话中记录的6个单词的示例语音谱图。语音谱图显示在100至8000赫兹范围内，采用对数频率范围以突显共振频率。(C)测试听众和实际情况之间的混淆矩阵。(D) 所有进行听力测试的人提供的合成语音样本的准确性分数分布。虚线表示随机表现（16.7%）。

另外，该研究使用了显著性分析方法揭示高伽马活动变化对语音片段识别的贡献，以解释nVAD模型的决策过程。研究发现，覆盖运动、前运动和体感皮层的广泛电极网络的高伽马活动变化与语音识别紧密相关，而喉背区的电极对此的贡献较小。通过反向传播方法计算了相关性分数，展示了通道对预测语音发作的影响。结果表明，nVAD模型在识别语音开始时受益于语音规划和处理过程中的神经活动。

图3. 跨运动皮层、前运动皮层和体感皮层的高伽马活动变化引发了语音输出的检测。（A）显著性分析显示，从预测语音开始前300到100毫秒的高伽马活动变化主要影响了nVAD模型的决策。覆盖运动皮层、前运动皮层和体感皮层的电极显示了模型决策的影响，而覆盖背喉区域的电极仅略微增加了预测信息。灰色的电极要么未被使用，要么是坏通道，或者没有显著的贡献。（B）说明了计算相关性分数的一般程序。对于每个时间步t，通过时间反向传播计算出之前所有高伽马特征帧Xt 中的相关性分数。预测为0表示无语音，而1表示语音帧。（C）三个强烈影响PSO的选定通道的绝对相关性分数的平均幅度的时间进展。阴影区域反映了平均值的标准误差（N=60）。

研究意义

该研究证明了闭环脑机接口在利用ALS临床试验参与者的言语皮层颅内记录在线合成可理解的单词的可行性。通过深度学习技术，研究展示了一种方法，能够将神经语音相关性转换为声波波形，并通过扬声器传输，获得了80%的可理解性得分。显著性分析显示了高伽马活动变化对语音片段识别的重要性，尤其是在运动、前运动和体感觉皮层的电极网络中的影响。研究结果提供了对大脑语音处理机制的重要见解，并为改善脑机接口系统在神经系统疾病患者中的应用和性能提供了重要参考。

参考：

https://www.nature.com/articles/s41598-024-60277-2

—— End ——

仅用于学术分享，若侵权请留言，即时删侵！