肌萎缩侧索硬化症(ALS,俗称 “渐冻症”)常导致患者逐步丧失发声能力。传统脑机接口(BCI)虽能实现基础沟通,但难以还原自然语音的语调、节奏与个性表达。2025年,加州大学戴维斯分校联合布朗大学、哈佛医学院等机构的研究团队,在《Nature》发表里程碑式成果,首次通过AI算法解码大脑运动皮层神经信号,实时生成自然流畅的语音,为失语者重建语言连接开辟了新路径。
01 研究背景
脑机接口(BCIs)有望为因神经疾病或损伤而丧失说话能力的人恢复交流功能。脑机接口已被用于将尝试说话时的神经关联转化为文本。然而,文本交流无法捕捉人类言语中的细微差别,比如韵律以及即时听到自己的声音。
本文展示了一种脑到语音神经假体,它通过解码植入肌萎缩侧索硬化症伴严重构音障碍患者ventral中央前回的256个微电极所记录的神经活动,即时合成带有闭环音频反馈的声音。克服了缺乏训练神经解码器所需的真实语音这一挑战,成功准确合成了患者的声音。除了音位内容,还能从皮质内活动中解码出副语言特征,使参与者能够实时调节其脑机接口合成的声音,改变语调并演唱简短旋律。这些结果证明了让瘫痪患者通过脑机接口清晰且富有表现力地说话的可行性。
02 研究概述
(1)ALS 患者的脑机接口植入方案:
研究选取1名45岁左利手ALS患者(T15),其ALS症状持续5年,存在严重构音障碍(无法清晰发声但可发声),ALSFRS-R评分为23分,依赖辅助设备交流。通过手术在患者左侧前中央回植入4个64电极硅微电极阵列(Utah array,总长1.5mm,铱氧化物涂层),覆盖腹侧运动前皮层、背侧运动前皮层、初级运动皮层及中央前回中部(图1a,b),基于Human Connectome Project pipeline 定位语言优势半球。电极通过经皮连接基座传输信号,数据采集时段为植入后25-489天,采用Neuroplex-E系统进行信号数字化处理。
(2)神经信号处理与解码模型:
■ 信号采集与预处理:原始神经信号采样率30kHz(分辨率250nV),滤波范围0.3-7.5kHz,通过4阶零相位巴特沃斯滤波(250-5000Hz)、线性回归参考去噪,提取1ms段的阈值交叉(-4.5倍均方根)和尖峰带功率特征,经10ms非重叠分箱、对数变换、滚动归一化及因果平滑处理,形成512维特征向量(图 2c)。
■ 解码器设计:采用基于Transformer的多层模型,含输入嵌入网络(2 个全连接层)和8个Transformer编码器块,输入为600ms滑动窗口(60×512 维),输出20维语音特征(18个巴克倒谱系数、基音周期及基音强度),训练采用Hubert损失函数,批量大小1024,训练时长20-40小时(3块NVIDIA RTX 3090)。
■ 目标语音生成:因患者无清晰发声基准,通过文本到语音算法生成合成语音,基于神经活动识别音节边界,经动态时间规整实现语音与神经信号的时间对齐(图2d);个性化语音合成采用StyleTTS 2模型克隆患者 ALS 前声音。
■ 实时合成流程:通过LPCNet声码器将 20 维特征扩展为 36 维向量,每 10ms 生成 1 帧语音波形(16kHz 采样),全程延迟 < 10ms,实现闭环音频反馈(图 2e)。
(3)实验任务设计:
实验在患者家中开展,采用 “延迟期(1.5-4s,文本提示)- 执行期(绿色提示,尝试发声)- 结束期(眼动触发)” 的试次结构,单试次含约 50 个任务块,具体任务包括:①提示句发声(独特句子,无重复);②无声模仿发声(仅做口型不发声);③自由应答(开放式问题回应或自主表达);④特殊发声任务(拼写字母、伪词发声、感叹词表达);⑤语调调制任务(陈述 / 疑问转换、句子中单词强调);⑥三音高唱歌任务(6-7 个音符,低 / 中 / 高 pitch 组合)(图 2、3)。所有任务均开启闭环语音合成反馈,部分任务搭配文本解码作为字幕辅助。
(4)实验结果:
通过 256 个微电极阵列采集左侧前中央回神经信号,基于 Transformer 解码器实现 < 10ms 延迟的闭环语音合成,合成语音与目标语音的皮尔逊相关系数达 0.83±0.04(40 个梅尔频率带)。人类评估中,956 个提示句的转录匹配准确率中位数 100%,开放式转录的音素错误率(PER)中位数 34.00%、词错误率(WER)中位数 43.75%,远优于患者残余构音(PER 83.87%、WER 96.43%)(图 3l)。系统可泛化至无声模仿发声(相关系数 0.82±0.03)、自由应答(0.79±0.05),还能合成伪词、感叹词及个性化语音(图 3g-i),且对咳嗽、背景噪音等具有鲁棒性(图 3)。
成功解码神经信号中的语速、语调、音调等副特征,实现多维度语音调控。语速调控中,快速发声(平均 0.97±0.19s / 词)与慢速发声(1.46±0.31s / 词)的时长分布差异显著(P=10⁻¹⁴)(图 4a-b);疑问语调调制准确率 90.5%,单词强调调制准确率 95.7%(图 4e、g);三音高唱歌任务中,合成音调可区分低 / 中 / 高三个等级,人类听众对音调对的分类准确率达 73.02%(图 4i),统一解码器也能实现连续音调合成(图 4j-k)。
将神经活动分解为输出有效维度(与语音特征时间对齐)和输出无效维度(间接参与行为输出),后者占总方差 97.5%,且解码语音的相关系数达 0.85±0.07(图 5a)。输出无效活动在句子进程中逐渐衰减,而输出有效活动保持稳定(图 5c);在语调调制时,目标单词的输出无效活动显著增强(P=10⁻²¹)(图 5b、d),提示其参与语音准备和调制的神经计算。
03 研究意义
文章首次实现<10ms 低延迟闭环语音合成,解决了 speech-impaired 患者缺乏真实语音训练数据的关键痛点(通过神经信号对齐音节级合成语音);突破传统文本输出 BCI 的局限,直接映射神经活动至声学特征,支持伪词、感叹词、个性化语音等无限制发声,且对背景噪音、非言语发声具有强鲁棒性,为 BCI 从 “辅助沟通” 迈向 “自然表达” 奠定技术基础。
针对 ALS 等神经疾病导致的严重构音障碍,不仅将患者言语可懂度从残余构音的 WER 96.43% 提升至 43.75%,更实现语调调制(疑问 / 陈述切换准确率 90.5%)、单词强调(准确率 95.7%)、三音高唱歌等副特征控制,还原人类 speech 的情感与语义层次;支持无声模仿发声、自由应答等真实场景使用,降低患者发声疲劳,满足日常交流与自我表达需求。
首次证实腹侧前中央回的皮层活动同时编码音素信息与副语言特征,且输出无效神经维度(占总方差 97.5%)参与言语准备与调制,其动态变化(句子进程中衰减、调制时增强)为理解 “言语规划 - 执行” 的神经计算提供新视角,补充了人类运动皮层言语编码的认知图谱。
公开数据(Dryad)与代码(GitHub),建立 “神经特征提取 - 因果解码 - 声码器合成 - 闭环反馈” 的完整 pipeline,支持少量数据快速训练(50 词词汇量首日即可合成);验证了统一解码器整合音素与副特征的可行性,为后续针对失语症、闭锁综合征等其他言语障碍的 BCI 研发提供标准化模板。
文章来源:10.1038/s41586-025-09127-3
浙大科技园启真脑机智能产业化基地是在浙大控股集团领导下,由浙江大学科技园发展有限公司与杭州未来科技城管委会共建,围绕脑机智能产业主体,辐射脑机+生命健康、脑机+智能制造、脑机+新一代信息技术、脑机+新材料等领域的专业化特色产业基地,由杭州启真未来科技发展有限公司负责全面运营。
基地依托浙江大学在脑机智能方面的学科优势,以脑机智能作为核心科技支撑,贯彻浙江大学国家大学科技园“有组织科技成果转化、有靶向科技企业孵化、有体系未来产业培育”的服务体系,致力于打造脑机智能领域具备成果显示度、区域影响力的产业化高地。
热门跟贴