你有没有想过,自己十年前抽的一管血,现在可能正躺在某个零下80度的冰柜里,等着帮科学家破解某种疾病的密码?
这周英国出了件挺闹心的事。UK Biobank——这个全球最大的健康数据库之一——被人发现数据出现在中国阿里巴巴的网站上叫卖。科学大臣帕特里克·瓦兰斯专门出来预警,说以后可能还有更多类似的倒卖尝试。消息一出,研究圈一阵紧张,媒体报道也跟着 sensationalised(煽情化)起来。不过很多报道没讲清楚的是:泄露的数据里没有姓名、地址、NHS编号或其他能定位到个人的标识信息;中国政府反应很快,下架了相关链接,实际上什么都没卖出去。
那么问题来了:这50万参与者会不会大规模退出?
作为其中一位"老志愿者",我收到了Biobank的安抚邮件。邮件不仅解释了事件经过,还列了一长串已经从我们数据里诞生的研究成果和疗法。更让我意外的是,Biobank代表告诉我,真正来询问退出的人只有大约100个,而且工作人员一对一沟通之后,实际退出的只有50人——对于一个50万人的样本库来说,这个流失率几乎可以忽略不计。Biobank的首席执行官罗里·柯林斯爵士甚至放话:任何焦虑的参与者,他亲自接电话聊。
这50个人为什么最终选择留下?我猜跟邮件里那张"成绩单"有关。
用Biobank数据做出的东西包括:能在运动神经元病症状出现多年前就预警的血液检测;几乎涵盖所有阿尔茨海默病例的单一基因定位;还有一个评分系统,能判断哪些超重人群风险因子最高、应该优先使用减肥药物。这些不是实验室里的玩具,是已经走进临床的东西。
让我回头说说这个数据库到底攒了什么家底。2006年,Biobank招募了50万名40-69岁的志愿者,收集的细节程度堪称变态:血液、尿液、唾液,身高体重、臀围腰围,血压心率、握力骨密度,眼科检查、肺功能、体能测试。生活方式问卷更是事无巨细——住哪、受教育程度、是否轮班、用手机习惯、抽烟喝酒、运动睡眠、饮食心理、认知功能,而且持续追踪。光是给所有人测基因组就花了五年。我的样本现在躺在零下80度的仓库里,等我死后,未来的研究者还能继续从中找病因、找疗法。
所有这些数据不卖,也不给琐碎或可疑的用途,只服务于正经科研。
这次泄露据瓦兰斯向议会上院的报告,是三个中国机构的" rogue researchers "( rogue 在这里是"不守规矩的"意思)干的。看起来有人想从本该免费向合法科学家开放的信息里捞一笔。
这里有个对比挺有意思。NHS——这个全国统筹、中央管理的公立医疗系统——是终身健康数据的最佳仓库。美国呢?医疗被私营公司切割得七零八落,根本做不到同样的事。其他一些国家,医疗系统要么地方分权,要么保险主导,数据碎片化,很难整合出全国层面的数据库。英国生命科学这几年被当成"真正有希望的增长 sector ",NHS这套数据基础设施功不可没。
纵向队列研究一直是英国的研究瑰宝。比如那个著名的项目,追踪同一月份出生的孩子……
(原文此处截断,后续内容缺失)
说到这,我想聊聊"数据焦虑"这件事。每次有泄露新闻,公众第一反应往往是"我的隐私完了"。这种本能没错,但容易忽略一个维度:健康数据的特殊性。你的购物记录被卖,最多收到精准广告;你的基因数据被滥用,理论上可能被歧视性定价保险——但前提是有人能把它对应到你这个人。Biobank的设计从一开始就去除了这种对应性,这是它和那些商业基因检测公司的本质区别。
当然,"去标识化"不是万能盾牌。学术界有过讨论:当数据集足够大、维度足够多,"重新识别"的技术可能性确实存在。但这次事件里,泄露的是哪一层数据、脱敏到什么程度,公开信息里没有细说。我能确定的是:没有个人标识信息流出,没有交易实际发生,而且Biobank的响应速度够快。
更值得追问的是:为什么有人觉得这些数据能在黑市上换钱?答案可能藏在科研数据开放的"免费"属性里。Biobank对合法研究者免费开放,但这个"免费"是有门槛的——你需要通过伦理审查、证明研究目的正当。 rogue researchers 想绕开这套流程,把数据倒卖给不愿或不能走正规渠道的人。这不是Biobank模式本身的漏洞,是执行层面的猫鼠游戏。
我注意到一个细节:瓦兰斯说的是"more attempts expected"(预计还会有更多尝试),而不是"更大规模泄露不可避免"。这个措辞选择本身就有信息量——英国政府把它当成需要持续监控的风险,而非系统崩溃的前兆。
作为参与者,我算过一笔账。退出Biobank,我的样本会被销毁,我的数据不再进入未来研究。这意味着什么?意味着某项二十年后才成熟的技术,可能少了一个对照样本;意味着某个罕见病亚型的统计显著性,可能差我那一个数据点就达不到。这种"贡献感"听起来很虚,但当你看到运动神经元病的早期检测、阿尔茨海默的基因图谱这些具体成果时,它会变得相当实在。
50个人退出,100个人询问——这个比例放在任何涉及50万人的危机公关场景里,都低得反常。我猜有几个原因:一是Biobank的参与者本身就是"自我筛选"过的,愿意花几小时做体检、答问卷、抽几管血的人,对科研价值的认同度本来就高;二是这次泄露的性质确实有限,没有个人标识,没有实际交易;三是Biobank的响应够有人情味——CEO亲自接电话,这不是标准危机公关模板里会写的东西。
但我也想诚实地说:如果泄露的是带标识的完整病历,如果真有数据被卖出去而且用途不明,我的计算可能会不同。风险-收益的权衡没有标准答案,每个人的阈值不一样。我尊重那50个最终选择退出的人,他们的决定同样合理。
这件事给我最大的感触是:好的数据基础设施需要公众信任,而信任是消耗品。Biobank花了近二十年建立这种信任——透明、免费、严格伦理审查、成果共享。一次 rogue 行为不会摧毁它,但多次处理不当会。瓦兰斯预警"更多尝试",其实是在提醒:这场信任保卫战是持续的。
NHS的中央化结构在这里既是优势也是靶子。优势是数据完整、可追踪、能支撑长周期研究;靶子是,一旦出事,影响面也大。美国的碎片化系统做不到这种研究,但也分散了单点风险。没有完美方案,只有权衡。
我最后想说的是:如果你也在某个生物银行或健康研究项目里,别被新闻标题吓跑,但也别盲目信任。问几个问题——数据脱敏到什么程度?谁有权访问?退出机制是什么?过往成果有哪些?这些Biobank都答得出来,而且答得详细。如果某个项目答不出来,那才真的要担心。
我的数据还在那个冰柜里。希望它有用。
热门跟贴