几个月前,我的医生向我展示了一款他用于记录和总结患者会面情况的人工智能转录工具。就我的这次情况来说,总结得还不错,但据《ABC 新闻》所援引的研究人员表示,OpenAI 的 Whisper 并非总是这样,许多医院所使用的一款由其驱动的工具——有时它完全是在编造内容。
据《ABC 新闻》报道,一家名为 Nabla 的公司使用 Whisper 作为医疗转录工具,据其估计,该工具已经完成了 700 万次医疗对话的转录。该媒体写道,有超过 3 万名临床医生和 40 个医疗系统在使用它。据报道,Nabla 意识到 Whisper 可能会产生幻觉,并且正在“解决这个问题”。
来自康奈尔大学、华盛顿大学等的一组研究人员 在一项研究中发现,Whisper 在约 1%的转录内容中产生幻觉,在录音沉默期间编造出有时带有暴力情绪或无意义短语的完整语句。作为研究的一部分,从 TalkBank 的 AphasiaBank 收集音频样本的那些研究人员指出,当患有称为失语症的语言障碍的人说话时,沉默尤其常见。
美国康奈尔大学的研究人员之一艾莉森·科内克(Allison Koenecke)在一个关于该研究的主题帖中发布了如下示例。
研究人员发现,幻觉还涵盖了虚构的医疗状况或是你可能在 YouTube 视频里预料到会出现的短语,比如“感谢观看!”(据报道,OpenAI 曾经转录超过一百万小时的 YouTube 视频以训练 GPT-4。)
该研究于 6 月在巴西举行的计算机协会 FAccT 会议上。目前还不清楚它是否经过了同行评审。
OpenAI 发言人塔亚·克里斯蒂安松给边缘网(The Verge)发送了一份声明:
我们严肃对待这个问题,并且一直在努力改进,包括减少幻觉现象。对于在我们的 API 平台上使用 Whisper 的情况,我们的使用政策禁止在某些高风险的决策情境中使用,并且我们用于开源使用的模型卡包含了反对在高风险领域使用的建议。我们感谢研究人员分享他们的发现。
热门跟贴