打开网易新闻 查看精彩图片

编辑丨&

智能可穿戴设备的研发与设计,往往会伴随着人文关怀的色彩。这些功能各异的系统在各自的领域往往能强有力的技术支持,而 AI 的搭载能协助捕捉更细节的生物信号,完成更精细的操作。

来自英国剑桥大学与北京航天大学等多所高校的实验团队介绍了一套由人工智能驱动的智能喉咙(IT)系统,将喉部肌肉震动与动脉脉冲信号与 LLM 相结合,实现流畅且情感表达的交流。该系统在与无名中风患者的测试中,实现了 4.2%的单词错误率,2.9%的句子错误率。

相关研究内容以「Wearable intelligent throat enables natural speech in stroke patients with dysarthria」为题,于 2026 年 1 月 19 日刊登于《Nature Communications》。

打开网易新闻 查看精彩图片

论文链接:https://www.nature.com/articles/s41467-025-68228-9

解读身体正在说什么

对中风、ALS 或帕金森患者而言,语言并不是“消失了”,而是被困在身体里。他们仍然能组织语义、仍然有情绪、仍然知道自己想说什么,但声音无法稳定、连续地被表达出来。

过去几十年,辅助交流技术(AAC)始终在尝试弥合这道鸿沟,但实际上真正缺失的是一种既贴近身体、又理解语言本身的系统。上述团队所提出的 IT 系统就弥补了这其中的缺陷。

该系统能够捕捉喉部肌肉的外部振动和颈动脉脉搏信号,实时整合无声语音和情绪状态分析。此外,其还能生成个性化、符合语境的句子,准确反映患者的意图。

打开网易新闻 查看精彩图片

图示:为中风构音障碍患者开发的 IT 示意图。

这个系统所搭配的柔性智能颈环核心是印刷在弹性织物上的石墨烯应变传感器,可检测低至0.1% 的微小应变,频率范围覆盖无声发音相关的快速肌肉活动。通过各向异性结构与隔离层,这个颈环对细微应变的响应超过了10%

打开网易新闻 查看精彩图片

图示:IT 的硬件与数据收集。

此外,IT 系统选择了一条更接近真实语言的路线,它能以约100 ms为时间尺度进行 token 预测,不再强制分词或分句。用户可以连续“默念”,系统持续输出语言流的同时,还能通过知识蒸馏将模型计算延迟降低76%,保证整条链路足够快,避免“人已经想完一句话,系统还在反应上一句”。

解码与 LLM 代理

除此之外,团队还将 DFT 频率提取纳入解码流程之中,这种方法使端到端神经网络能够自动提取最相关特征,以进行无需手动特征工程的情感分类。结果显示 DFT 在解码准确性方面有显著提升。最优模型是带有 DFT 的 1D 卷积神经网络,准确率达到 83.2%。

在临床观察中,团队观察到即使是无声默念短语,也会导致肌肉疲劳等现象,让发声出现偏差。为了减少相应的体力损失与保留预期信息,团队引入了智能扩展选项,允许患者表达简洁的符号,这些符号会自动丰富为完整且符合上下文的句子。

而为了确保句子自然且连贯,他们引入了两个基于GPT-4o-mini AP I的 LLM 代理:符号合成代理(TSA)和句子扩展代理(SEA)。

打开网易新闻 查看精彩图片

图示:LLM 代理框架与性能评估。

TSA 将 token 标签直接合并为患者无声表达的词语,并将它们组合成句子;而 SEA 则利用情绪标签和客观信息,将这些基本句子扩展为连贯、个性化的表达。这两个代理生成的句子都会被发送到开源的文本转语音模型,并以匹配后的语音进行播放。在实际应用中,用户完成无声表达与句子播放之间的延迟大约为 1 秒。

智能发声

全面的分析和用户反馈肯定了 IT 在流畅度、准确性、情感表达和个性化方面的高绩效。该系统的成功来自于其能够捕捉高质量信号的超灵敏纺织应变传感器,高分辨率的标记化分割技术使用户能够无表达延迟地进行连续沟通。

该系统采用的 LLM 代理的集成实现了智能纠错和上下文适应,实现了卓越的解码准确率,用户满意度提升了55%。

这只是个开始。团队还在积极扩大研究队列,纳入更多构音障碍患者,并计划扩大语言数据库,实现更高的覆盖率。硬件与软件的升级也同样在他们的准备之中。团队表示,他们希望自己的成果能协助有关病患改善他们的生活质量。