如果一个人把自己的血液样本、生活习惯、病史、影像资料和遗传信息交给科研机构,他希望的应该是将这些数据用于推动医学发展,而不是有一天出现在电商平台的商品页面里。
但最近,UK Biobank 的数据风波让这种信任出现了裂缝。
据 UK Biobank 的官方声明和媒体报道,部分去标识化的参与者数据被发现出现在阿里巴巴旗下的电商平台进行出售。
图片来源: 网页截图
UK Biobank不是普通数据库。它收集了约 50 万名英国志愿者的健康、生活方式、生物样本、遗传和部分影像数据,是全球最重要的生物医学研究资源之一,也支撑了大量关于癌症、痴呆、帕金森病等疾病的研究。
因此,这起事件真正值得关注的,不只是「数据被挂上电商平台」这件事本身,而是它暴露了一个更深的问题:
当科研数据已经成为高价值资产,我们是否仍然有能力保证「数据共享」不会走向失控?
UK Biobank 为什么重要,又为什么敏感?
在现代生命科学中,许多重大问题都不可能依靠几十个、几百个样本解决。
比如,为什么有些人更容易患癌?遗传背景和生活方式如何共同影响慢性病?早期痴呆能否通过血液指标、影像或遗传风险提前预测?空气污染、饮食、运动与社会经济条件又如何长期影响健康?
这些问题都需要大规模、长期追踪、变量丰富的人群数据。
UK Biobank 正是这样一个资源。它将基因组、血液和尿液样本、生活方式问卷、医疗记录、身体测量、部分影像数据等整合到一个长期队列中。对研究者来说,这种数据库的价值极高,因为它不是孤立地记录「某人是否患病」,而是试图把一个人的遗传背景、生活环境、行为方式和疾病结局连接起来。
图片来源:biobank 主页
但风险也随之而来。
普通人的直觉可能是,只要数据里没有姓名、手机号、家庭住址,就算是匿名的,也就安全了。可是在人群健康数据中,情况远没有这么简单。
据报道,英国科技部长 Ian Murray 表示,虽然被挂出出售的数据不包含姓名、地址和联系方式,但他无法完全保证没有人可能被识别,因为相关数据可能包括性别、年龄、出生年月、社会经济状态、生活习惯以及生物样本指标等信息。
图片来源: 新闻截图
这些变量单独看似乎不一定敏感,但组合在一起,就可能构成一个人的「数据指纹」。
比如,一个人的出生年月、性别、地区或社会经济背景、罕见疾病记录、某次重大手术时间、特殊检查结果、遗传风险信息,如果再与公开社交媒体、新闻报道、病友论坛、家谱网站或其他泄露数据交叉,就可能不断缩小范围,甚至定位到具体个人。
这也是为什么「去标识化」并不等于「绝对匿名」。
对一个生物医学数据库来说,最敏感的地方并不只是「别人知道我是谁」,还包括「别人可能知道我未来会得什么病、我家族有什么遗传风险、我曾经接受过什么治疗、我有哪些生活习惯」。
这类信息一旦脱离原本的研究环境,就会带来难以预估的风险。
伤害的不只是数据安全,还有公众的信任
UK Biobank 之所以能建立起来,依靠的是参与者的信任。
几十万普通人愿意把自己的健康记录、生物样本和长期随访信息交给研究机构,是因为他们相信这些数据会被用于公共利益:帮助科学家理解疾病,帮助医生更早诊断,帮助下一代人获得更好的治疗。
参与者未必知道每一个研究项目的技术细节,也不可能逐一审查全球研究者如何使用数据。他们真正相信的是一套制度——谁可以申请数据、谁有资格使用数据、数据如何被保护、如果有人违规会怎样处理。
因此,当 UK Biobank 的数据被挂出出售时,公众最担心的并不只是「有没有人已经被识别」,而是一个更基础的问题:
我当初交出的数据,是否真的处在可信的环境中?
图片来源: 网页截图
从官方说法看,此次被挂出的数据不包含姓名、地址、联系方式和电话号码,相关 listing 也已被移除。这些信息很重要,说明我们不应把事件夸大为「完整身份信息被公开出售」。
但问题在于,公众信任并不只建立在「最坏结果尚未发生」之上。
对参与者来说,更直观的问题是——
如果数据可以被获批研究机构下载、复制、转移,甚至最终出现在电商平台的出售信息中,那么此前的访问制度、合同约束和技术防护,到底哪里失效了?
这正是大型科研数据库面临的根本困境。
医学进步确实需要数据共享。没有跨机构、跨地区、跨学科的数据使用,许多疾病机制研究、早期预测模型和药物靶点发现都会变得困难。
但数据一旦被共享,控制权就会变得复杂。过去很多数据库采用的是「申请 — 批准 — 下载 — 本地分析」的模式。这个模式方便研究,却也意味着风险被扩散到了每一个使用数据的机构、每一台服务器、每一个研究人员的操作习惯中。
合同可以定义责任,却不能阻止数据复制;审查可以筛选申请者,却不能保证每一次后续操作都合规;去标识化可以降低风险,却不能让敏感数据彻底失去识别可能。
这就是 UK Biobank 事件带来的真正警示。
数据到底是怎样流出去的?
从目前公开信息看,这起事件并不像传统意义上的「黑客攻破服务器」。
根据 UK Biobank 官方声明,被挂出出售的是已经提供给三家学术机构研究使用的去标识化参与者数据,目前这些机构和涉事个人因违反合同,相关访问权限已经被暂停。
图片来源:网页截图
也就是说,问题的关键可能不是「外部攻击者偷走了数据」,而是「获得授权的人或机构没有按照规则使用和保管数据」。
这类泄露方式比黑客攻击更难处理,因为它发生在信任边界内部。
第一种可能,是授权下载后的二次扩散。一个研究机构获得数据后,原本只能用于获批项目。但如果内部管理松散,数据可能被复制到个人电脑、实验室服务器、移动硬盘、云盘或其他未经批准的环境中。
第二种可能,是研究流程中的无意公开。例如,研究者本意是公开分析代码,却不小心把部分数据文件也上传到代码共享平台。随着开放科学越来越强调代码公开和结果复现,这种风险并不罕见。
第三种可能,是以结果文件之名导出参与者级数据。许多研究平台允许研究者导出统计表、模型参数、图表和汇总结果。但如果导出审查不够严格,研究者就可能把较大规模的参与者级数据带出平台。
这三种路径指向同一个问题——如果一个体系主要依赖「使用者会遵守规则」,那么它面对的最大风险并不只是恶意攻击者,还有疏忽、侥幸、误操作、内部违规和灰色交易。
但值得注意的是,生物医学数据一旦被复制出去,就不像银行卡密码那样可以简单重置。一个人的出生年月、病史、遗传信息、身体指标和家族风险不会因为泄露而改变。数据可以下架,账号可以封禁,但已经被复制过的文件是否还存在、是否会再次流通,往往很难完全确认。
因此,未来大型科研数据库可能必须从「数据发放」转向「数据留在平台内使用」:
研究者可以在受控平台中完成分析,但只能带走经过审查的汇总结果。平台需要记录谁访问了什么数据、运行了什么任务、导出了什么文件,并及时识别异常下载、异常压缩、异常拆分和异常批量导出。
这并不是要否定开放科学。恰恰相反,真正可持续的开放科学,必须建立在更强的数据保护基础上。
开放不等于无限复制,共享不等于任意下载,数据可以被共享,但信任不能被倒卖。
题图来源:图虫创意
我们长期为科研用户提供前沿资讯、实验方法、选品推荐等服务,并且组建了 70 多个不同领域的专业交流群,覆盖PCR、细胞实验、蛋白研究、神经科学、肿瘤免疫、基因编辑、外泌体、类器官等领域,定期分享实验干货、文献解读等活动。
添加实验菌企微,回复【】中的序号,即可领取对应的资料包哦~
【2401】论文写作干货资料(100 页)
【2402】国内重点实验室分子生物学实验方法汇总(60 页)
【2403】2024 最新最全影响因子(20000+ 期刊目录)
【2404】免疫学信号通路手册
【2405】PCR 实验 protocol 汇总
【2406】免疫荧光实验 protocol 合集
【2407】细胞培养手册
【2408】蛋白纯化实验手册
【2501】染色体分析方法汇总
【2502】国自然中标标书模板
【2503】WB 实验详解及常见问题解答
【2504】DeepSeek 论文写作常用口令
【2505】中国科学院期刊分区表(2025 年最新版)
【2506】期刊影响因子(2025 年最新版)
【2507】130 种实验室常用试剂配制方法(附全套资料)
【2508】常见信号通路
【2509】限制性核酸内切酶大全
热门跟贴