因渐冻症(ALS)等病症而无法言语或打字的人群不容忽视,他们在日常沟通交流中面临着巨大障碍,急需有效的辅助手段来打破沟通壁垒。
尽管辅助性/替代性沟通(AAC)设备及眼动打字技术虽能提供一定支持,但频繁的按键操作极易导致眼疲劳和时间成本,严重阻碍了运动障碍患者进行自然流畅的对话以及充分表达自我,进而影响生活质量。
为解决这一问题,来自谷歌的研究团队及其合作者开发了一个由大语言模型(LLM)驱动的用户界面(UI)——SpeakFaster。
据介绍,SpeakFaster 利用经过微调的 LLM 和会话语境,能以极高的准确率将高度缩略的英文文本(仅为单词首字母,必要时还会添加字母和单词)扩展为所需的完整短语,帮助 ALS 患者眼动打字按键次数减少了 57%,文本输入速度比 baseline 提高了 29-60%。
视频|SpeakFaster UI 的截屏显示。该界面允许用户输入缩写文本,并使用对话上下文以完整句子形式建议答复。
相关研究论文以“Using large language models to accelerate communication for eye gaze typing users with ALS” 为题,已发表在 Nature 子刊 Nature Communications 上。
这些结果表明,通过大幅提高文本输入速度并减少身体压力,SpeakFaster 可以帮助严重运动障碍患者更准确、更高效地交流,使他们能够更充分地参与对话,从而提高独立性、社会参与度、自我表达能力和生活质量。
让渐冻症患者更好地沟通
SpeakFaster 提供了一种基于人工智能(AI)的方法,将 LLM 与专为缩写文本输入而设计的 UI 结合。
具体而言,研究团队首先对 SpeakFaster 的 UI 进行了设计,从而确保其允许轻松输入和优化缩写,保证用户始终能够传达他们想要的信息,即使初始预测不是他们想要的。
他们此前证明,经过微调的 LaMDA(64B参数)可以将单词首字母形式的缩写(例如“ishpitb”)扩展为完整短语(例如“I saw him play in the bed”),在提供对话上下文(即另一位说话者的轮次)时,准确率高达 77%。无法找到精确匹配的情况往往发生在更长、更复杂的短语上。
图|SpeakFaster UI 中缩写文本输入的主要交互途径:仅首字母路径。
虽然很有希望,但实际的解决方案需要确保用户在初始缩写扩展(AE)失败的情况下能够随后输入任何任意的短语,即用户在 UI 中永远不会遇到“死胡同”。因此,他们开发了一个 UI 和两个底层微调的 LLM,作为完整、实用的解决方案。
其中,KeywordAE 能够扩展混合首字母和完整或部分拼写单词的缩写。KeywordAE 模型还能够扩展仅由首字母组成的缩写,因此提供了此前他们工作功能的超集。
图|KeywordAE UI 途径。
FillMask 则能够在周围单词的上下文中提供以给定首字母开头的备选单词。两个模型均使用从四个公共英语对话数据集中合成的大约 180 万个独特的三元组 {上下文、缩写、完整短语} 进行微调。
图|FillMask UI 路径。
为了形成通往微调 LLM 的通道,他们还设计了一个具有三个路径的 UI,即 Initials-only AE、KeywordAE 和 FillMask,以支持完整的缩写文本输入体验。
Initials-only AE 是 SpeakFaster UI 中所有短语输入工作流程的共同起点。在三个路径中,它涉及的按键和眼动点击次数最少,仅首字母路径就足以满足简短和可预测的短语。当用户输入缩写时,UI 在每个按键后自动触发对 KeywordAE LLM 的调用,包括用户键入的缩写以及所有之前的对话轮次作为 LLM 的输入。每个调用返回基于对话上下文和缩写的 top-5 最有可能的选项,这些选项在 UI 中呈现给用户浏览和选择。
如果通过仅首字母路径没有找到预期短语,那么 SpeakFaster UI 提供了两种替代 UI 路径来帮助用户找到预期短语。
第一种替代 UI 路径是 KeywordAE,允许用户拼写多个单词。每次按键后都会自动触发对 KeywordAE 的调用,而每次调用后,UI 将呈现 KeywordAE LLM 返回的最新 top-5 短语扩展。
第二种替代 UI 路径是 FillMask,这是从找不到精确预期短语的失败中恢复的另一种方法。与 KeywordAE 不同,FillMask 仅适用于扩展中的非常少(通常是单个单词)单词不正确的情况。
KeywordAE 和 FillMask 是两种替代交互模式,用于从通过仅首字母路径无法获得预期短语中恢复。在当前研究中,SpeakFaster UI 允许用户在使用 KeywordAE 模式后使用 FillMask 模式,这对于在难以预测的短语中找到正确的单词很有用。
图|由 KeywordAE 和 FillMask 辅助的短语输入模拟策略。
这样一来,当使用 SpeakFaster 时,用户首先输入他们想要的短语中单词的首字母。然后,经过微调的 LLM 会预测整个短语,并根据这些首字母和对话上下文显示最可能的短语。如果所需短语不在选项中,用户可以通过拼出关键词或选择替代词来优化预测。这种方法大大减少了所需的按键次数,从而加快了沟通速度。
之后,为评估 SpeakFaster UI 界面节省用户操作动作的大致上限,研究团队开展了模拟实验。他们使用 Turk Dialogues 语料库,模拟了三种不同的用户交互策略:
策略 1:使用首字母缩写进行 AE,如果失败则使用 KeywordAE 进行迭代拼写,直到找到匹配的短语。
策略 2:与 Strategy 1 相同,但每当最佳匹配短语候选词中只剩下一个错误单词时,就使用 FillMask 进行替换。
策略 2A:Strategy 2 的变体,更积极地使用 FillMask,即在最佳选项中剩下两个或更少的错误单词时立即使用。
与 Gboard 的预测 baseline 相比,SpeakFaster 在三种策略下都实现了显著的按键节省。在 Strategy 2 下,使用 KeywordAE v2 模型,SpeakFaster 实现了 0.657 的按键节省率(KSR),比 Gboard 的 KSR(0.482) 高出 36%。这表明,利用 LLM 的上下文感知能力和 FillMask 的词替换功能,可以在很大程度上提高文本输入效率。
模拟结果还表明,SpeakFaster 在提供 5 个最佳短语选项的情况下表现最佳,并且对话上下文对于 LLM 的预测能力至关重要。
图|模拟实验结果表明,SpeakFaster UI 可大幅节省按键。
除了模拟实验外,研究团队还进行了用户研究,从而测试 SpeakFaster 的有效性。
研究团队测量了动作节省(与要输入的完整字符集相比节省的按键次数)、实用性(每分钟的打字速度)和 SpeakFaster UI 的可学习性(人们需要多少练习才能习惯使用该系统)这三个指标以评估 SpeakFaster 界面。
在运动节省指标方面,与传统 baseline 相比,SpeakFaster 为 ALS 眼动用户和非 AAC 参与者提供了大量按键动作节省。对于非 AAC 用户,SpeakFaster 在脚本场景中可实现 56% 的按键节省,在非脚本场景中可实现 45% 的按键节省。对于 ALS 眼动用户,SpeakFaster 还在脚本阶段显著节省了按键。
图|左图:非 AAC 用户的KSR。右图:ALS 眼动用户的 KSR。橙色和紫色条显示使用 SpeakFaster 系统时的 KSR,蓝色和绿色条显示使用 baseline 智能键盘时的 KSR。
在实用性指标方面,对于非 AAC 用户来说,整体文本输入速度与传统打字速度相当。然而,在针对一位 ALS 眼动用户的实验室研究显示,SpeakFaster 使脚本阶段的打字速度提高了 61.3%,非脚本阶段的打字速度提高了 46.4%。
图|左图:对于非 AAC 用户,脚本阶段和非脚本阶段的整体文本输入速度没有出现显著变化。右图:对于 ALS 眼动用户,SpeakFaster 显著提高了脚本阶段和非脚本阶段的速度。
除了节省动作和提升打字速度外,学习曲线和所引入的认知负荷也是评估打字系统和UI的关键指标。虽然与非 AAC 用户相比,ALS 眼动用户在使用 SpeakFaster 时最初的学习曲线略慢,但只需 15 个练习对话,ALS 眼动用户就能达到舒适的打字速度。
图|通过为非 AAC 用户提供 6 个练习对话和为 ALS 眼动用户提供 15 个练习对话,参与者能够学习 SpeakFaster 系统达到每分钟 20-30 个单词的舒适打字速度(显示在 y 轴上)。
虽然各项实验表明 SpeakFaster 帮助严重运动障碍患者实习高效交流方面具有独特优势,但目前该研究还存在有模型语言单一、短语长度受限、服务成本高昂以及研究样本量较少等局限。
AI 正在改善残障人士生活
SpeakFaster 并非首个致力于改善残障人士生活的 AI 项目。
2019 年,BrightSign 推出了一款基于 AI 的智能手套。该手套内置预定义手语库,能将手势转化为语音,结合机器学习算法,可让让听力或语言障碍者双向交流、独立与他人直接沟通,行动受限者如中风患者或听力丧失老人也可使用。
2021 年,加州大学旧金山分校 Chang Lab 团队首次用脑机接口帮助一位瘫痪超过 15 年的失语男子 BRAVO1 恢复了“说话”能力。该研究通过在被试者大脑内植入电极的深度神经读取技术帮助被试者实现脑与设备的信息交换,从而恢复其与世界沟通的能力。()
2024 年,OpenAI 推出了 Voice Engine 模型的小规模预览成果。该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音,已经帮助一名因血管性脑肿瘤而失去流利语言能力的年轻患者恢复声音。
2024 年,北卡罗来纳州立大学与北卡罗来纳大学教堂山分校的苏浩教授团队提出了一种在计算机仿真环境中通过强化学习来让机器人学习控制策略的新方法,有望极大地提高老年人,行动障碍人士和残疾人的生活质量。
相信在不久的将来,AI 将进一步改善残障人士的生活。
对此,你怎么看?欢迎在评论区留言。
作者:阮文韵
如需转载或投稿,请直接在公众号内留言
热门跟贴