撰文丨王聪

编辑丨王多鱼

排版丨水成文

医疗人工智能(Medical AI)模型,有望提升全世界的高质量诊断服务的可及性。然而,这些模型所依赖的训练数据通常包含敏感的患者信息,可能通过隐私攻击被泄露。以往的研究主要从整体上量化了针对整个数据集记录的攻击成功率,因此,对于个体患者面临的隐私风险(尤其是那些向训练数据集贡献多个相似记录的患者),目前仍缺乏深入理解。

2026 年 6 月 24 日,慕尼黑工业大学的研究人员在国际顶尖学术期刊Nature上发表了题为:Disparate privacy risks from medical AI 的研究论文。

该研究首次从患者个体层面揭开了医疗 AI的隐私风险——哪怕整体攻击成功率看起来和随机猜测差不多,仍有部分患者面临极高的隐私暴露风险,且代表性不足的群体更是“雪上加霜”。

打开网易新闻 查看精彩图片

医疗 AI 的“隐形漏洞”:成员推断攻击

医疗 AI 的训练需要海量患者数据,这些数据通常经过匿名化处理,但依然藏着隐患。研究团队关注的是一类叫“成员推断攻击”(membership inference attack,MIA)的隐私攻击:攻击者不需要知道模型的内部参数,只要能通过接口拿到模型的预测结果,就能反推某条数据是否被用于训练这个模型。

打开网易新闻 查看精彩图片

MIA 与评估策略

这个攻击的危害可能比你想象的大:如果模型是针对癌症患者训练的,那么“某人的数据在训练集里”本身就等于“这个人得了癌症”。此前的研究大多只看“整体攻击成功率”,也就是把所有数据的攻击结果平均,得出的结论往往是“风险很低”。但这次研究把视角下沉到了单个患者——毕竟现实中,一个患者往往会贡献多种数据、多次就诊记录,他的隐私风险远不是“平均值”能代表的。

整体安全,个体高危

研究团队用 7 个大型真实医疗数据集做了测试,涵盖胸片、心电图、电子健康记录、皮肤科图像、眼底照片、乳腺钼靶等多种数据类型,结果出乎意料:

“平均安全”是最大的误区

整体层面的攻击 AUC(衡量攻击效果的指标,0.5 代表随机猜测,1 代表完美攻击)大多接近 0.5,看起来和瞎猜没区别。但如果看单个患者的攻击成功率,却有少数人能达到接近 1 的完美水平——也就是说,攻击者只要拿到一次模型预测结果,就能 100% 确定这个患者是否参与了模型训练。举个直观的例子:100 个患者里,99 个人的数据完全攻不破,但剩下 1 个人的数据一攻一个准。整体平均下来成功率只有 1%,但落到这个倒霉的患者头上,风险就是 100%。

模型越大,风险越高

AI 领域流行“scaling law”(规模法则),模型越大效果越好。但该研究发现,模型容量每增加一级,高风险患者数量往往增加一个数量级:在皮肤科数据集上,用小型网络时没有患者面临高风险,换成中等网络后有千分之一的患者中招,用上预训练的大型视觉模型后,十分之一的患者都可能被精准识别。

少数群体成了“重灾区”

更值得警惕的是风险的分配不均:在数据集中占比低的群体,反而更容易出现在高风险名单里。比如在急诊电子健康记录数据中,黑人患者、 医疗补助保险持有者、癌症患者的数据在最高风险区间的出现率,分别比整体平均水平高出 31%、126% 和 18%;在乳腺钼靶数据中,BI-RADS 4 类(可疑恶性)的病例在最高风险区间的占比,比整体水平高出 11 倍还多。这背后的逻辑也不难理解:罕见的数据模式更容易被模型“记住”,而这种“记忆”恰恰成了隐私泄露的源头。

打开网易新闻 查看精彩图片

MIA 对提供数据的个体患者构成了重大的隐私风险

只拿到部分数据,攻击依然有效

有人可能会想:“攻击者拿不到完整病历不就没事了?”

研究团队模拟了“部分数据访问”的场景:比如攻击者只知道急诊患者的年龄、性别、主诉症状和生命体征,或者只能拿到心电图的单导联信号,攻击成功率确实会下降,但仍有相当一部分患者处于高风险区间。

这意味着,哪怕数据脱敏做得再到位,只要攻击者掌握少量关联信息,依然能精准定位特定患者。

怎么破?差分隐私或许是答案

好在研究团队也给出了解决方案:差分隐私(Differential Privacy)。这是一种数学可验证(mathematically verifiable)的隐私保护技术,通过在模型训练过程中添加可控的噪声,限制单条数据对模型的影响,从原理上杜绝了成员推断攻击的可能。

实验显示,随着隐私保护强度提升,患者层面的攻击成功率明显下降。不过目前的差分隐私大多是基于“单个记录”设计的,而一个患者可能有多个记录,要实现真正的保护,还需要升级到“患者级差分隐私”。

更让人乐观的是,近年来的研究显示,引入强差分隐私保护的医疗 AI,性能下降可以控制在极小范围内,因此,隐私和安全,未必一定要二选一

这项研究给我们的启示

这项研究的意义,不止于揭示一个技术漏洞,还在于——

  • 对医疗AI开发者来说,以后做隐私评估不能再只看“整体指标”,必须把患者个体风险纳入考核,尤其是对少数群体的影响;

  • 对监管方来说,需要推动医疗AI的隐私审计标准升级,要求厂商披露患者级的隐私风险评估结果;

  • 对我们普通患者来说,这提醒我们在贡献医疗数据时多留个心眼:尽量选择有明确隐私保护措施的项目,关注数据使用的透明度。

医疗 AI 的价值毋庸置疑——它能让偏远地区的患者也能享受到顶级专家的诊疗水平。但技术的进步不能以牺牲患者隐私为代价。只有当所有数据贡献者的隐私都能得到保障,医疗 AI 才能真正赢得公众的信任。研究团队总结道,诸如 MIA 之类的隐私攻击在个体层面的精准打击效果,比目前普遍人认为的更加显著。因此,隐私风险评估必须将个体风险纳入考量,并对易受攻击的医疗 AI 模型提供进一步保护。

论文链接

https://www.nature.com/articles/s41586-026-10688-0