打开网易新闻 查看精彩图片

导读:一份终止合作的公告,暴露了医疗数据交易中最隐蔽的漏洞——数据可以要回来,但训练好的模型不会失忆。

纽约市健康与医院公司(NYC Health + Hospitals)最近宣布,旗下8家公立医院将停止向Palantir共享患者私人健康数据。这家运营着全美最大公立医疗系统的机构,管理着约300万份活跃病历。合作终止的消息传出后,Reddit上的讨论迅速分化成两派:一派愤怒于"他们居然一直在干这个",另一派冷静分析"这完全合法"。

真正的问题藏在合法性的缝隙里。

数据共享的灰色地带:HIPAA没说的那部分

数据共享的灰色地带:HIPAA没说的那部分

Palantir与纽约公立医院的合作始于2022年,核心产品是名为"Foundry"的数据整合平台。医院将患者信息导入系统,用于优化床位分配、预测急诊高峰、追踪慢性病管理效果。从合同角度看,这属于"医疗运营"范畴,Palantir作为"商业伙伴"(Business Associate)签署BAA协议后,接收受保护健康信息(PHI)完全符合《健康保险流通与责任法案》(HIPAA)规定。

一位在临床研究领域深耕多年的MD/PhD在Reddit thread中直言:「HIPAA实际上并不禁止这种行为——医院可以在运营、支付或特定研究用途下,与Palantir这样的商业伙伴共享PHI。」

但这位研究者抛出了一个更尖锐的问题:「更关键的问题不是'这是否合法',而是'谁来监管Palantir从数据中推导出的产物,以及合同结束后这些衍生知识存放在哪里'。」

HIPAA、欧盟AI法案、ISO 42001,所有这些规范都约束的是"接触数据的系统",而非"系统产出的产物"。

一个用800万份纽约患者记录训练出的风险预测模型,不会因为数据共享协议终止而自动删除。模型的权重参数、特征关联模式、对特定人群的健康风险评估能力——这些"衍生品"的法律地位,目前处于监管真空。

Palantir的医疗版图:从战场到医院走廊

Palantir的医疗版图:从战场到医院走廊

要理解医院为何选择Palantir,得先看这家公司的基因。Palantir由PayPal联合创始人Peter Thiel于2003年创立,早期核心客户是美国情报机构(CIA、NSA)和军方。其名字源自《指环王》中那颗可以透视远方、却可能被邪恶力量监视的水晶球——这个隐喻在医疗数据语境下显得颇为讽刺。

2010年代后期,Palantir开始将"战场级"数据整合能力商业化,医疗成为重点扩张领域。其逻辑很直接:如果系统能在伊拉克追踪叛乱分子网络,自然也能在医院里追踪疾病传播路径和患者流动模式。

纽约市健康与医院公司的合作是Palantir公立医疗领域的标杆案例。根据公开信息,Foundry平台接入了11家医院的电子病历系统、实验室数据、影像档案和医保索赔记录,构建"统一患者视图"。宣传材料中的典型应用场景包括:识别可能失约的糖尿病患者、预测哪些急诊科患者将在72小时内再次入院、优化手术室排班。

这些功能对资源紧张的公立医疗系统确有吸引力。纽约市健康与医院公司每年服务超过100万无保险或保险不足的患者,运营效率的压力真实存在。但效率提升的代价是:数百万患者的完整健康画像流入了一家以政府监控合同起家的公司。

Reddit评论区的一条高赞回复道出了核心焦虑:「他们 literally 是我最不想拥有我私人健康数据的公司。」另一条回复则更具黑色幽默:「这就是为什么我只去深山老林找萨满看病。」

终止合作的真正动因:压力来自哪里

终止合作的真正动因:压力来自哪里

官方公告对终止原因语焉不详,仅称"经过全面评估后决定"。但时间线提供了线索。

2024年下半年,纽约州总检察长Letitia James办公室开始对公立医疗机构的数据共享协议展开审查,重点关注患者知情同意流程和第三方数据使用范围。几乎同时,美国卫生与公众服务部(HHS)更新了HIPAA guidance,强调"去标识化"数据的重新识别风险,以及AI训练场景下的合规边界。

更大的背景是Palantir自身的舆论困境。2024年,该公司因参与美国移民与海关执法局(ICE)的驱逐行动追踪系统而遭遇大规模抗议,多个学术机构和非营利组织切断了与其的合作。医疗领域的客户开始重新评估品牌风险——与一家政治争议缠身的公司绑定,是否值得?

纽约市健康与医院公司的决策,很可能是风险计算的结果:继续合作的收益(运营效率提升)与成本(潜在的诉讼、监管处罚、公众信任流失)之间的天平发生了倾斜。

但这里有个关键的认知陷阱。许多报道和社交媒体讨论将"停止共享"等同于"数据回归安全"。事实远非如此。

模型不会失忆:被忽视的数据衍生品问题

模型不会失忆:被忽视的数据衍生品问题

Palantir Foundry的核心价值不在于存储原始数据,而在于通过机器学习提取模式。过去两年多的合作中,系统持续学习纽约患者群体的特征:哪些社区的高血压控制率最低?哪些因素最能预测急诊室的非必要就诊?特定种族或年龄组的并发症风险模式如何?

这些洞察被编码进预测模型的参数中。当数据共享终止时,医院可以要求删除原始PHI,可以要求返还或销毁本地存储的数据副本。但已经训练完成的模型呢?

目前没有任何美国法律明确要求删除或限制使用基于历史数据训练的AI模型。欧盟AI法案对"高风险AI系统"有持续合规要求,但Palantir的Foundry平台是否构成"高风险系统"取决于具体用途,且该法案对模型衍生品的追溯效力同样模糊。

那位MD/PhD研究者的警告值得重复:「合同结束后,那些衍生知识存放在哪里?」

Palantir可能在其他客户场景中复用这些模型的架构,甚至通过"迁移学习"将纽约患者数据中学到的模式应用到其他地区。公司官方否认这种做法,但外部无法审计。更现实的担忧是:即使Palantir本人恪守承诺,模型中编码的群体层面洞察——例如"某邮编区域居民的心血管风险显著高于平均水平"——已经成为其"领域知识"的一部分,影响着后续产品的设计逻辑。

Reddit评论区有人讽刺:「我猜Palantir会做正确的事,停止使用他们之前共享的所有患者数据。他们是家好公司,对吧?让我查查他们到底是干什么的……」

这种不信任并非空穴来风。Palantir的商业模式建立在数据网络的规模效应上:服务越多客户,积累的行业洞察越深厚,产品竞争力越强。医疗数据一旦进入这个飞轮,就很难完全剥离。

监管滞后:当法律追不上技术

监管滞后:当法律追不上技术

纽约医院事件暴露的系统性问题,是数据治理框架与AI技术演进之间的脱节。

HIPAA制定于1996年,最后一次重大修订是2013年。其设计初衷是规范"数据流动"——谁可以在什么条件下访问哪些信息。但AI时代的核心问题变成了"数据转化":原始信息如何被蒸馏为模型能力,这种能力如何被转移、复用、货币化。

现有法规对此几乎沉默。BAA协议通常规定数据使用范围和保密义务,但很少涉及"基于数据开发的算法资产"的归属和处置。当合作终止时,双方往往只关注数据删除,而忽略模型处置。

一些前沿讨论正在尝试填补空白。"机器遗忘"(Machine Unlearning)是学术研究的热点,目标是让模型"忘记"特定训练数据的影响,但目前技术远不成熟,且对复杂深度学习模型的适用性有限。欧盟正在探索"算法影响评估"制度,要求高风险AI系统记录训练数据来源和模型变更历史,但执行细节仍在博弈中。

更根本的挑战在于:即使法律要求删除模型,如何验证执行?AI系统的"记忆"不像数据库记录那样可以被逐条清点。模型参数是数百万个数字的矩阵,每个数字都间接受到所有训练数据的影响,无法对应到具体某条患者记录。

这意味着"数据可携带权"和"被遗忘权"在AI语境下面临技术性失效。患者可以要求医院删除自己的病历,但无法要求从Palantir的模型中"提取"出自己的那部分影响——因为技术上做不到。

行业连锁反应:公立医疗系统的信任危机

行业连锁反应:公立医疗系统的信任危机

纽约市健康与医院公司的决定,可能引发公立医疗机构对AI供应商的重新评估。与私营医疗系统不同,公立医院承担着更重的公共服务使命,也面临更严格的政治问责。与争议性科技公司的合作,容易成为攻击靶点。

已有迹象显示这种"去Palantir化"趋势在蔓延。2024年底,英国国家医疗服务体系(NHS)推迟了与Palantir的续约谈判,尽管官方否认与政治压力有关。美国退伍军人事务部(VA)的内部评估报告也显示,对Palantir合同的反对声音在增加。