新型血液检测有望在恶性肿瘤扩散前将其检出,但证明这些检测真正能改善预后,仍是一个棘手的挑战。

本文即将发表于2025 年 6 月 23 日《纽约客》杂志印刷版,标题为“Early Warnings.”作者:悉达多·穆克吉(Siddhartha Mukherjee)凭借“The Emperor of All Maladies: A Biography of Cancer”荣获2011年普利策奖。该书的扩充版预计将于2025年11月出版。

每年,美国在癌症筛查上的花费高达数百亿美元。但我们如何判断一项检测是否真正有效? 插图:Ibrahim Rayintakath

这一发现的开端,如同许多突破性成果,源于一个看似不合常理的观察。

1948年,两位法国研究人员保罗·曼德尔(Paul Mandel)和皮埃尔·梅泰(Pierre Métais)在一本科学期刊上发表了一篇鲜为人知的论文。他们在斯特拉斯堡的实验室里,一直致力于记录血浆的化学成分——血浆这股生命之流中充斥着蛋白质、糖分、代谢废物、营养物质和细胞碎片。在这些熟悉的成分中,他们发现了一个意想不到的存在:自由漂浮的DNA片段。

这一发现挑战了生物学的传统认知。当时人们认为DNA始终被锁在细胞核内,不会自行游离。更奇怪的是,这些不是完整的基因组,而是破碎的片段——如同从未知源头漂来的基因残骸。

曼德尔和梅泰不确定该如何解读这一现象。同样困惑的科学界在十多年里基本忽略了这篇论文。但生物学的奥秘很少会永远被掩埋。最终,研究人员带着一个简单的解释重新审视这个问题:每天,随着数十亿细胞死亡,它们会破裂并将内容物(包括DNA)释放入血液。这些片段在被肾脏代谢或清除前,会在血液中短暂循环。研究人员得出结论,这种“无细胞DNA”是人体持续进行的死亡与更新循环的残留物。

DNA似乎像沉船的残骸一样从死亡细胞中脱落。看似废物的东西可能成为见证——一只袜子、一把勺子、一条从淹没船舱中漂出的项链,每一样都暗示着曾经存在的生命。我们血液中的这些片段是否携带着释放它们的细胞的信息?科学家能否将这些分子碎片拼凑起来,重建它们所来自的细胞的身份?

20世纪60年代,纽约的癌症研究员亚伦·本迪奇(Aaron Bendich)提出,肿瘤细胞可能像健康细胞一样,会向血液中释放DNA。 到1989年——即曼德尔和梅泰的发现过去四十年后——研究人员已在癌症患者的血液中找到了肿瘤来源的无细胞DNA的确凿证据。

这一发现的影响深远。几十年来,科学家一直在寻找早期发现癌症的方法:乳房X光检查、结肠镜检查、巴氏涂片——所有这些都是为了在恶性肿瘤扩散前将其捕获。癌细胞可能将秘密泄漏到血液中的观点,暗示了一种全新的可能性:我们或许可以不通过影像学或体格检查,而是通过简单的抽血来检测恶性肿瘤。科学家最终将其称为“液体活检”,对许多人而言,这预示着癌症筛查领域将迎来革命性的飞跃。

在癌症通过症状显现之前将其捕获——这种早期发现的希望,持续推动着该领域的研究和投资。但这种希望可能掩盖了一个更复杂的现实。

英国癌症研究中心的一个小组在2020年《柳叶刀肿瘤学》的一篇评论文章中宣称:“如果我们要战胜癌症,早期发现和诊断无疑是我们掌握的最有效手段。”癌症筛查的案例可以概括为一个简单的故事:一位女性的乳房出现肿块;乳房X光检查发现了肿块;活检证实了恶性肿瘤;外科医生在肿块扩散之前将其切除。她的生命得救了。

但现在想象一下,两位女士去乳房X光检查诊所。她们都被发现长着一模一样的肿块。她们都被诊断为早期乳腺癌,并安排了手术。她们都如释重负地回家,坚信现代医学已经及时介入。正如一位女士回忆起那一刻时告诉我的那样:“一旦我知道它已经长在我体内,我就想尽快把它取出来。我每小时都给外科医生的办公室打电话,直到他们给我安排了下周的预约。”

问题在于,乳房X光检查只能显示肿瘤的阴影,无法预知肿瘤的性质。它显示的是癌症的“躯体”,而非“思想”:也就是说,乳房X光检查无法告诉我们肿瘤是否具有侵袭性,是否已经扩散,还是会保持惰性。图像无法提供任何线索,揭示意图和未来的倾向。

假设第一位女士接受了手术,她对“早期”发现的想法感到安心,但结果却发现癌症已经扩散到手术刀无法触及的范围内。手术虽然严格,却没有任何益处。她承受了伤害却没有得到任何好处,这与古老的医学箴言“首先,不要造成伤害”截然相反。

第二位女士面临的情况则截然相反。她的肿瘤看似凶险,但本质上却并非致命——生长缓慢,非侵入性,永远不会威胁到她的生命。然而,她也经历了手术、麻醉和康复。手术切除了一个毫无危险的肿瘤。再次强调:弊大于利。

这一悖论揭示了我们当前癌症筛查模式的一个核心缺陷。我们已经能够精准定位癌症的物理存在——它的实体形态——但对其特征、行为和未来却大多视而不见。我们运用基因组检测和组织病理学分级,但许多早期肿瘤在生物学层面仍然难以确定。它们可能是那种可以通过手术治愈的早期癌症。它们可能生长缓慢,不太可能造成损害。或者,最令人担忧的是,它们可能已经转移,使得局部干预变得毫无意义。三种可能性——然而,我们常常无法确定我们面对的是哪一种。

让情况更加复杂的是,假阳性比比皆是:一些检测结果显示癌症并非真实存在,导致不必要的检查、焦虑和伤害。为了探索这片险峻的领域,我们或许可以求助于一位奇特的人物——一位启蒙时代的牧师兼数学家,他的思想如今正引领我们穿越黑暗。

托马斯·贝叶斯并非医生。他出生于十八世纪初,是一位长老会牧师,同时兼任形式逻辑学的副业——在那个渴望确定性的时代,他是一位不确定性的诠释者。在一幅传统上被认为是贝叶斯的肖像画中(尽管画中人物的身份可能被误认),他是一位身材魁梧、自信满满、留着华尔街式发型的男子:他其实是穿着牧师外套的亚历克·鲍德温。贝叶斯一生只发表了两篇论文:一篇为上帝的仁慈辩护,另一篇为牛顿微积分辩护。他去世后,皇家学会发表了一篇关于条件概率的论文,为他做出了持久的贡献。该论文的论点至今仍影响着我们评估信息的方式。

想象一下,一群六十多岁的重度吸烟者中,有一人患有肺癌。这个千分之一的概率,就是贝叶斯所说的“先验概率”——即在我们知道其他任何情况之前就患上这种疾病的概率。现在假设我们使用一种检测方法,当肺癌存在时,它能以99%的准确率检测出肺癌。这就是该检测方法的“灵敏度”。当癌症不存在时,它也能以99%的准确率给出阴性结果——这就是该检测方法的“特异性”。

那么,如果这群人中有人检测呈阳性,这意味着什么呢?这个人真正患癌症的概率有多大?贝叶斯算法给出了一个令人惊讶的答案:这项测试预计可以识别出真正患癌症的那一个,但也会错误地标记出大约十个没有患癌症的人。这意味着大约会有十一个阳性结果,但其中只有一个是准确的。因此,检测呈阳性的人患癌症的概率略高于9%。换句话说,11个人将被送去接受活检等后续检查。其中10个人将经历一个危险且具有侵入性的检查过程——可能涉及肺部穿孔、出血或其他并发症——而且没有任何益处。

简而言之,如果你打算在大海捞针,即使使用最好的探测器,你也大多会找到干草。如果你选择一个草堆,里面散落着成千上万根针,你找到的针就会比干草还多。后验概率(找到针的概率)取决于先验概率(一开始有多少根针)。

在贝叶斯模型中,知识总是暂时的,是一个根据新证据更新信念的过程。对于一位58岁的乳腺癌幸存者,如果其家族有乳腺癌病史,那么在原发部位附近出现新的肿块可能预示着复发——需要进行干预。对于一位20岁且没有相关病史的病人,同样的发现很可能是良性的——观察等待可能就足够了。

忽视这些原则的后果令人震惊。据估计,2021年美国在癌症筛查上的花费超过400亿美元。平均而言,一年的筛查结果有900万个阳性结果,其中880万个是假阳性。数百万人忍受着后续扫描、活检和焦虑,最终只能发现20多万个真正的阳性结果,而这些结果中只有极小一部分可以通过切除等局部治疗治愈。其余的都是被误认为是信号的噪音,被误认为是帮助的伤害。

早期检测的难题远不止于此。我有时会在晨查时问实习生一个问题:“我们如何判断癌症筛查测试是否有效?”答案通常很快:“如果这项测试能以高比率或早期阶段检测出恶性肿瘤。”

但是,正如乳房X光检查的故事所表明的那样,仅仅发现肿瘤并不能告诉我们它会产生什么后果。于是我进一步追问。他们的下一个答案也很快浮出水面:“通过将人群分为筛查组和未筛查组,然后测量哪一组在没有癌症的情况下存活时间更长。” 但这种方法又引发了另一个谬误。

假设2025年,一对同卵双胞胎同时罹患乳腺癌。其中一个接受定期筛查,肿瘤早期发现。她开始接受治疗——手术、化疗。治疗过程非常艰苦:手术后出现血栓,化疗期间感染,以及数月的恢复期。四年过去了。她坚持着这一切,希望能够治愈。

她的姐姐因一位老朋友的治疗经历而受到打击,彻底拒绝接受筛查。她搬到了纽约州北部,照料苹果树,读书,并拒绝接受医疗干预。到2029年,她出现了乳腺癌症状,但她拒绝接受治疗。

2030年,第一个姐姐得知癌症复发。她住进了纽约市的一家医院。同月,她妹妹——现在病情明显恶化——也住进了同一家医院。她们躺在相邻的病床上,反思着各自的选择。她们在同一周去世。

现在出现了幻觉。第一个双胞胎的诊断后生存期记录为五年,而第二个只有一年。医生审查她们的病例可能会得出结论,筛查将生存期延长了五倍。但这两个女人是同时出生和死亡的。筛查对寿命没有影响。表面上的好处只是统计上的幻象——是我们开始计时时产生的假象。这就是“领先时间偏差”,它夸大了生存时间,却没有改善结果。

领先时间偏差并非扭曲癌症筛查结果的唯一因素。设想一个村庄,那里的癌症有两种形式——一种发展迅速且致命,另一种发展缓慢且基本无害。通过年度筛查,生长缓慢的肿瘤更容易被发现:它们在可检测的无症状期停留更长时间。相比之下,侵袭性肿瘤通常在两次筛查之间出现症状,并通过临床诊断。(患有这些肿瘤的患者甚至可能在两次年度检查之间死亡。)十年后,数据看起来很有希望:发现更多早期癌症,确诊后生存期更长。但这种表面上的好处具有误导性。筛查会不成比例地发现惰性肿瘤——那些一开始就不太可能致命的肿瘤。这被称为长度时间偏差。

这两种错觉——领先时间偏差和时间长度偏差——为筛查工作蒙上了一层光彩。一种错觉通过改变起跑线来延伸我们对生存的衡量标准;另一种错觉则通过偏向那些本来就危害较小的肿瘤来宣称筛查成功。几十年来,这两种错觉一直误导着癌症研究人员。

要确定筛查是否真正有效,我们必须衡量的不是生存时间,而是死亡率。筛查组死于癌症的人数是否减少?这才是真正重要的结果。然而,证明这种益处是一项缓慢而艰巨的工作。作为一名试验者,你必须等待最终的终点:死亡。这可能需要几十年的时间。你需要大量的患者来捕捉筛查组和未筛查组之间的任何差异。这个过程是无休止的——筛查、检测、治疗、重复和等待。严格的癌症筛查试验费用昂贵、耗时长、方法论棘手,而且极不确定。它们不仅考验我们方法的有效性,也考验我们信念的持久性。

重点并非在于筛查无法带来益处。成功案例是真实存在的。2022年,《新英格兰医学杂志》发表了一项具有里程碑意义的结肠镜检查试验的结果,该试验涉及波兰、挪威和瑞典的84,585名参与者。经过十多年的研究,数据显示,接受结肠镜检查的人群中,与结直肠癌相关的死亡人数估计减少了50%。每四到五百例结肠镜检查就能预防一例结直肠癌。这种益处是真实存在的——但要证明这一点需要多年的艰苦研究。

不同癌症类型的筛查效果差异巨大。以卵巢癌为例,这种疾病通常潜伏期较长,直到癌细胞扩散至腹部才被发现。1993年,研究人员启动了一项大型试验,旨在测试每年进行超声检查和血液检查能否降低死亡率。试验规模惊人:超过七万八千名女性参与其中,其中一半被随机分配接受筛查。四年来,她们忍受着经阴道超声检查;六年来,她们接受着常规抽血检查。之后,她们又接受了十多年的监测。这是一次集体的慷慨之举——成千上万的人忍受着不适和不确定性,只为挽救未来的患者。

其中一位是我认识的雪莉。她敏锐、风趣、精力充沛,那种能不费吹灰之力就让整个房间都为之倾倒的人。她是一位心胸宽广、思维敏捷的高管,她总是能以同样永不停歇的精力投入到新项目或朋友的危机中。当她得到阴性结果时,她如释重负。但她仍然坚持参加。年复一年,她忍受着尴尬的超声波检查、抽血,以及候诊室里偶尔出现的沉默。她相信这项试验的前景。

我们发现了什么?在接受筛查的患者中,3285人被确诊为假阳性。超过一千人接受了不必要的手术。163人出现严重并发症——出血、感染、肠道损伤。但十八年后,死亡率并无差异。即使额外进行了三到六年的随访,结果仍然成立。

我们常说“抗癌之战”,却鲜少承认为此付出的代价。这本身就是一场战争——一场没有胜利的战斗。它留下的教训,有助于解释为何有效的筛查至今仍难以实现,以及为何游离DNA(即所谓的液体活检)的前景如此诱人。如果癌症不是通过影像学或侵入性检查,而是通过血液中的分子痕迹来发现,那又会怎样?如果我们不仅能检测到癌症的存在,还能预知其发展方向,那又会怎样?或许,我们最终可以开发出一种既能拯救生命,又不会在过程中造成那么多伤害的检测方法。

2016年,一家名为Grail的初创公司着手实现这一目标。Grail这个名字本身就暗示着癌症检测的“圣杯”,既展现了该公司的雄心壮志,也展现了它对这一挑战的敬畏之心。Grail总部位于加州门洛帕克,由一支杰出的科学顾问委员会提供支持,该公司开始开发一种基于游离DNA分析的“多种癌症早期检测”测试。

这种方法非常巧妙:提取血液中循环的DNA片段——这些片段与曼德尔和梅泰斯近七十年前首次发现的片段相同——并对其进行测序,以识别提示癌症的基因表达调控异常。机器学习算法能够识别DNA中的化学修饰,探测到Grail所说的“癌症信号”,然后解码其来源,确定它可能在体内的哪个部位开始。这是一项艰苦而严谨的工作。

我向 Grail 总裁 Joshua Ofman 询问了公司雄心勃勃的目标。他指出,目前,指南通常只建议筛查五种癌症:乳腺癌、宫颈癌、前列腺癌(尽管这项检测的价值尚有争议)、结直肠癌,以及吸烟者中的肺癌。“这种一次筛查一种癌症的方法,在美国仅能检测出14%的癌症病例——这是一个令人沮丧的数字,”他告诉我。“现状令人无法接受。我们无法选择自己会患上哪种癌症,而且一次筛查一种癌症并不能解决超过80%的癌症死亡问题。增加更多单一癌症筛查检测并不可行,因为每种检测的假阳性率都很高,加在一起会让医疗保健系统不堪重负。”

然而,Grail 的检测已经识别出 50 多种癌症。2016 年 8 月至 2019 年 2 月期间,Grail 启动了一项里程碑式的研究,旨在评估这项检测(后来被命名为 Galleri 检测)的效果。其规模令人印象深刻:超过 1.5 万名参与者在 140 多个地点参与,其中包括美国的顶级医疗中心。该研究被精心设计成几个子研究,每个子研究都旨在解答关于该检测效果的一个特定问题。经过五年的数据收集和分析,所有结果将于 2021 年公布。

乍一看,这篇论文就像一篇科学杰作——医学、数学、生物化学、计算生物学和机器学习的完美融合。我记得在2021年一个闷热的夜晚,新冠疫情肆虐之际,我仔细研读了这篇论文。我端着一壶咖啡,仔细阅读了五十页密密麻麻的表格和文字,一直读到深夜。

子研究 3 脱颖而出:在 4,077 名参与者中,2,823 名已知癌症,1,254 名确认无癌。Grail 的检测在 1,453 例癌症病例中发现了恶性肿瘤,在 1,370 例中漏诊。总体灵敏度(即在癌症真正存在时检测出癌症的能力)高达 51.5%。对于一次抽血检测数十种癌症类型而言,这是一个令人震惊的结果。现有的方法很少能与之匹敌。最引人注目的是,该检测能够检测出长期以来被认为无法筛查的恶性肿瘤——胰腺癌、卵巢癌和其他逃避监测的肿瘤。同时,在 1,254 名无癌参与者中,只有 6 例出现假阳性——比率非常低,约为 0.5%。

该公司的言论充满乐观,这并非毫无道理。研究人员听起来信心满满。投资者欣喜若狂。患者充满希望。看来,我们终于有了名副其实的液体活检技术:一种只需一小瓶血液就能检测出多种癌症的检测方法。

然而,深入研究数据后,一个令人警醒的数字浮出水面。该检测对I期癌症的敏感性——这是任何筛查工具的基准——略高于16%。早期发现难道不应该是关键吗?然而,早期癌症——仍处于局部,尚可手术——常常被忽略,因为释放的信号太少而无法被检测到。随着癌症的进展,该检测的效果会更好,这合情合理:晚期肿瘤会释放更多DNA。但它们对治疗的反应也更差。

不同癌症类型的结果差异很大。对于I期胰腺癌和卵巢癌,灵敏度分别达到50%和60%——对于两种最难诊断的恶性肿瘤来说,这确实令人鼓舞。对于早期食管癌和肺癌,灵敏度则下降到12%和21%——这一水平将严重限制其临床应用。

即便如此,发现某些早期癌症——尤其是卵巢癌和胰腺癌——仍然令人兴奋。早期癌症提供了更多选择、更多时间和更多希望。它们更有可能被治愈。经济和人力成本的考量也发生了变化:早期癌症的治疗费用远低于晚期癌症。手术规模更小;化疗的痛苦更小。患者可以保留更多精力、更多尊严,更好地享受正常生活。

读完之后,我保持着谨慎乐观的态度。任何筛查测试的一个关键指标是其阳性预测值(PPV),即阳性结果真正预示疾病的可能性。Grail 的测试总体 PPV 约为 45%。也就是说,如果检测结果呈阳性,那么你实际患癌症的概率略低于 50%。许多现有的筛查测试的预测值更差,通常会产生比 Grail 方法可能引发的更多不必要的干预。

2021年,在公布了一些补充结果后,Grail开始向公众推出Galleri检测。不久之后,Grail的网站上刊登了Rich的故事。Rich是一位健身房老板,大约七十多岁,举止慈祥沉稳。在一段制作精良的视频中,Rich讲述了这项检测是如何在他血液中检测到癌症信号的。他去看了一位肿瘤科医生,得知这项检测发现了已经扩散到淋巴结的癌症。“我感到很欣慰——幸好我们能早点发现,”他手放在胸口说道。“虽然是三期,但我还要六个月到一年的时间才能发现,到那时就太晚了。”

这是一个感人的故事。然而,看着看着,我却始终无法摆脱叙事与临床现实之间的矛盾。这并非传统意义上的早期发现——在小肿瘤扩散之前就发现它。里奇的癌症已经蔓延到淋巴系统。如果说这是筛查的胜利,那感觉就像一场有条件的胜利——与其说是胜利,不如说是短暂的喘息。

两年前,Grail在《柳叶刀》上发表了另一项研究的结果。该研究对该检测的功能进行了更细致的描述。从 2019 年末到 2020 年,研究人员招募了超过 6600 名参与者,从每位参与者身上抽取血液,并将这些样本提交分子检测。这项研究并非随机的;其设计旨在模拟该检测在日常医疗实践中的表现。

与之前的试验一样,技术人员从血浆中提取并测序了游离DNA片段。机器学习算法在细胞的嘈杂声中筛选出细微的信号。92名参与者的信号浮现——理论上,每一位都挽救或延长了一条生命。

后续检查——扫描、活检、全套诊断手段——确诊了36例癌症。其中29例为新诊断癌症;7例为既往治疗复发。真正令人燃起希望的是,14例新诊断癌症(约占一半)处于早期(I期或II期),且有望治愈。此外,该检测还发现了一些目前尚无标准筛查方法的恶性肿瘤:小肠癌、胰腺癌,以及一种罕见的梭形细胞肿瘤(一种骨癌)。所有这些癌症都是在尚可手术切除的阶段被发现的。这些癌症通常只有在广泛扩散后才会显现。

然而,在《柳叶刀》杂志的一篇评论文章中,医生理查德·李和流行病学家希拉里·罗宾斯认为该检测的总体灵敏度“有些令人失望”。他们指出,通过传统方法发现的癌症数量也相当。他们总结道,Galleri 检测“可能不会取代标准筛查”,并敦促谨慎使用,呼吁在将其添加到现有方案之前,先进行成本效益分析。

他们还指出了一个关键细节:在14例早期癌症中,只有6例是新诊断的实体瘤——这些恶性肿瘤有可能通过根治性手术切除。其余8例是液体肿瘤——白血病和骨髓瘤,这些弥漫性疾病不易被控制或“切除”。正如评论员所指出的,“这一发现提出了关于该检测能否在人群层面降低癌症死亡率的重要问题。”

尽管存在局限性,Grail 仍然扫清了一个重要的障碍:这项检测能够在看似健康的个体中识别出癌症,而这些癌症原本可能被遗漏。但一些亟待解决的问题依然存在。如果不进行干预,早期的肝脏肿瘤——或者胰腺病变——是否会致命?如果这类癌症之前就能在早期就被定期发现,它们的自然发展史或许就能被记录下来。有些癌症会保持休眠状态,甚至消退吗?还是它们都注定会扩散?

只有一种方法可以知道。Grail 需要在一项完全随机的试验中证明其能够降低癌症特定死亡率——而这项难以捉摸的黄金标准已经毁掉了许多前景光明的筛查技术。

这项挑战极其艰巨,需要招募大量参与者并进行多年的随访。在美国这样一个碎片化的医疗体系中,此类研究在商业上也极具风险:投资者不愿接受如此漫长的周期和如此不确定的结果。然而,目前还没有捷径可走。

Grail 此前已与英国国家医疗服务体系 (NHS) 的英语系统合作开展一项研究。该研究于 2020 年底宣布,规模庞大:超过十四万名参与者,来自英格兰各地 151 个地点的 11 个流动诊所。“该试验设计了连续三年的筛查,旨在实现主要终点,即晚期(III 期和 IV 期)癌症诊断数量的绝对减少,”Grail 国际业务负责人 Harpal Kumar 写道。第一轮筛查数据的审查计划于 2024 年进行,最终结果预计将于 2026 年公布。如果早期数据证明有希望,Galleri 测试将在英国国家医疗服务体系 (NHS) 内推进到更大规模的试点项目。

此次合作立即在癌症流行病学家中引发争议。英国国家医疗服务体系(NHS)在英国人的生活中占据着独特的地位——它既是备受珍视的机构,也是人们长期诟病的靶子。一家美国私营公司介入公共卫生体系的想法引发了人们的警惕。在一篇措辞尖锐的《柳叶刀》评论文章中,题为《Grail -Galleri:为何如此特殊?》,八位杰出的医生、流行病学家和社会学家直言不讳地发出警告:“一项无法改善死因特异性死亡率(或生活质量)的癌症筛查计划只会造成损害并浪费金钱。”他们认为,“ GRAIL -Galleri 试验至少必须证明其在降低癌症特异性死亡率方面具有直接益处。”任何替代终点都不足以说明问题。他们对 NHS 试验选择“分期转变”(即减少晚期诊断)作为主要指标感到担忧。始于上世纪90年代的卵巢癌筛查惨败清楚地表明,早期诊断的增多并不一定意味着死亡人数的减少。批评人士警告说:“尽管商业利益强大,但NHS(英国国家医疗服务体系)却无力承担引领世界采用这些评估不充分的干预措施的后果,这些干预措施可能收效甚微甚至毫无益处,不仅会损害民众的利益,还会浪费本可用于其他用途的资源。”

2024年春天,我坐在办公桌前,等待英国国家医疗服务体系(NHS)宣布Galleri的疗效。如果早期数据异常积极,Galleri测试预计将扩大到更大规模的试点。最终的声明出奇地简洁:“基于NHS-Galleri三年试验第一年的数据,英国国家医疗服务体系(NHS England)决定,将等待最终结果(预计在2026年),然后再考虑是否应该继续在NHS推广Galleri多种癌症早期检测测试(即多种癌症血液检测计划,MCBT)。”

这意味着什么?是检测结果不尽如人意,还是分析结果本身就缺乏定论?根据 Grail 自身的框架,决策将遵循“三个强有力、雄心勃勃且预先设定的标准”:筛查组和未筛查组之间晚期癌症诊断的减少率、检测的阳性预测值以及每个队列的总体癌症检出率。

我联系了 Grail 的总裁 Joshua Ofman。“NHS 当时希望看到仅凭第一轮筛查就能获得显著益处的早期迹象,而这在之前的首轮筛查试验中从未出现过,”他告诉我。他的基本思路是:数据太少,现在下结论还为时过早。(不过,Grail 同意让 NHS 审查早期数据时,大概抱有不同的预期。)

为了弄清楚情况,我联系了英国癌症研究中心的首席临床医生查尔斯·斯旺顿。他立即回复道:“作为联合首席研究员,在最终结果出来之前,我对任何数据都一无所知。” 前牛津大学钦定医学教授、全球基因组医学权威约翰·贝尔也同样不解。“完全没有头绪,”他回答道。“我知道的和你一样多。或许可以问问彼得·约翰逊。”

约翰逊——英国国家医疗服务体系(NHS)癌症国家临床主任,也是该领域最受尊敬的临床学者之一——也迅速回复了邮件。“这项研究已经完成了三年的血液采样,我们正在等待统计分析计划和研究方案的结果,然后再做进一步的决定。目前还没有对数据进行分析。” 他澄清说,2024年5月的声明并非正式的中期分析,并不能决定试验的方向。

我随后提出了一系列问题:Grail 的“三个稳健、雄心勃勃且预先设定的标准”是否经过评估?如果这不是中期分析,那么究竟评估了什么?这些有希望的数据是否会导致由 NHS 资助的更广泛推广?为什么 Grail 选择分期转变而不是癌症特定死亡率作为主要终点?后续研究中会测量死亡率吗?

约翰逊接下来的回应颇具启发性。首先,他澄清了财务安排:“随机对照试验 NHS-Galleri 由GRAIL独家资助和赞助。” 他指出,NHS 为检测结果呈阳性的参与者承担了诊断检查和治疗费用,但没有承担检测费用。(NHS 已同意,如果早期结果非常有希望,将为扩大规模的试点项目购买一百万份检测试剂。)

随后,关键信息披露来了:“我可以确认,至少有一项标准未得到满足,”他写道,并解释了为何实施试点项目无法在2024年启动。他承认癌症筛查研究进展缓慢:“癌症筛查试验通常需要10-15年才能发表死亡率研究结果,而即使结果呈阳性,通常也需要再过10-15年才能在全国范围内推广高覆盖率的筛查项目。我们对NHS-Galleri试验以及一项可能的实施试点项目采取的方法旨在加快这一进程,同时又不失方法学的严谨性,而这对于任何此类项目的成功都至关重要。”

哈帕尔·库马尔(Harpal Kumar)在 Grail 网站上发表意见:“这种对某些特定指标的早期研究只能提供有限的视角。正如之前的癌症筛查试验所证明的那样,第一轮筛查的结果并不总是反映最终结果,尤其是在减少晚期诊断方面。”

事实上,几乎每一项新型高科技癌症筛查测试,都可以上演类似的版本。格局在变迁,技术在进步,但核心难题依然存在:确定哪些癌症具有临床意义,如何应对诸如领先时间和时间长度偏差之类的错觉,以及最终证明我们不仅能够发现更多癌症,还能预防更多死亡。

癌症遗传学和机器学习的加速发展可能会改变早期检测的贝叶斯格局。几代人以来,我们目睹了恶性肿瘤在家族中穿梭——结直肠癌、卵巢癌、乳腺癌、胰腺癌。这种模式很熟悉,即使尚未完全理解。我们通常会寻找单基因突变——BRCA1、BRCA2、MLH1——这些突变预示着风险升高。但大多数遗传风险并非由单一的流氓基因携带。它源于许多基因的积累——一系列微小变异的复调,每一个都会略微增加风险。如今,基因组测序和计算建模的进步已经开始解开这个架构。复杂的算法可以扫描整个基因组,绘制出数千个微小遗传变异如何相互作用的图谱。一个针对数千个基因位点的模型已经可以预测成年人的身高。营养仍然很重要,但这些预测的精确度代表着一项显著的进步。

类似的模型目前正在被训练用于预测复杂疾病的易感性——肥胖、心脏病,以及日益增多的癌症。有乳腺癌家族史的女性现在可以获得“多基因风险评分”——由数十或数百个基因变异组成的综合评分。很快,这类模型或许能够解释环境暴露和偶然因素的影响,从而提供更动态、更个性化的风险地图。

想象一下,设计的筛查试验并非针对普通人群,而是针对那些已被基因标记的人群——那些乳腺癌或结肠癌多基因评分较高的人。再加上其他风险因素:年龄、既往诊断、暴露史。在这样的世界里,筛查将不再普及。高危人群将接受重点监测。低危人群则可能免于不必要的检查。预先筛选高危人群可以显著提高筛查的预测能力。CT扫描中的可疑结节或液体活检的阳性结果将更有意义。信号更多,噪音更少。获益的可能性增加;损害的风险降低。

这种新范式不可避免地背负着自身的心理负担。贝叶斯风险会引发贝叶斯焦虑。患者开始将风险视为一个“地形”——评分、阈值、概率——不断调整自己在其中的位置。正如一位患者所说,“这就像被围攻”——不是被实际疾病围攻,而是被一种潜在的疾病围攻。这种现象催生了一个意味深长的新词“预生者”(previvor),指的是那些长期生活在疾病阴影下的人,尽管他们尚未患上这种疾病,但基因上易患上这种疾病。与那些忍受疾病并最终改变的幸存者不同,预生者发现自己悬在健康与预期的背叛之间。他们的生活并非由诊断决定,而是由可能性决定。“癌症之地”(Cancerland)——肿瘤学家戴维·斯卡登(David Scadden)的贴切术语——的边界已经急剧扩大。这片曾经专属于活动性癌症患者的土地,很快将涵盖数百万仅因风险评分就被卷入其中的人。

早期检测倡导者和流行病学严谨论者之间的争论愈演愈烈。新兴技术——无细胞DNA检测、新型生物标志物、全身成像——的支持者认为,传统标准设定了难以实现的高门槛。旨在证明癌症特定死亡率降低的随机试验可能需要数十年时间。即使是针对高危人群的贝叶斯试验也面临着招募缓慢和长期随访的问题。这些研究往往像疲惫不堪的中世纪商队一样,带着来之不易的货物摇摇晃晃地回家,却发现周围的景象已经发生了变化。正如奥夫曼警告的那样,等到最终结果出来时,这项技术可能已经过时了。如果三十年后,一项试验产生了一个略微积极的信号——恰逢一种更新、更好的检测方法出现,该怎么办?

一组流行病学家在2008年写道:“所有筛查项目都会造成危害;有些项目也会带来好处,其中一些项目在合理的成本下利大于弊。” 这一观点至今仍然成立。但是,一旦筛查测试被广泛采用,即使其益处被证明微不足道,也几乎不可能取消。其政治后果将是巨大的。心理上的损失——摧毁一种保护感——也将是巨大的。

与此同时,新技术不断涌现,每一项都以速度为诱惑。随之而来的是,人们倾向于接受一些更宽松的疗效替代指标:更早的检测、更精准的分期、更优的生存曲线。采取行动的压力是真实存在的。但问题同样重要:我们能否在不损害证据标准的情况下调整证据标准——找到既能跟上创新步伐,又能告诉我们最需要了解的信息的严谨方法。

我想起了雪莉。在卵巢癌试验结果为阴性后,她坚持了好几年——每次扫描、每次抽血都如期而至,相信自己的工作。她感到无比轻松,并将这份轻松转化为更大的事业:筹款、倡导、公众支持生物医学研究。然而,在2020年,她被诊断出患有转移性卵巢癌。尽管接受了手术和强化化疗,她还是在两年后去世了。如果最初的筛查更有效,她还会活着吗?无人知晓。但这个问题依然萦绕心头。

2021年,在她生命的最后一年,我得了重感冒。雪莉把一盒自制鸡汤送到我的公寓。这是一个小小的举动,却又很有特色:务实、慷慨,而且是主动提出的。它一直萦绕在我的心头——比任何p值或风险比都更直接。每当我回想起早期检测的统计难题时,我都会想起她。筛查试验的对象并非抽象概念。他们是活生生的人,他们的生活以任何数据点都无法捕捉的方式触动着他人。

或许,假以时日,我们最终能开发出不仅能检测癌症存在,还能预测其发展过程的工具——这些测试不仅能监听信号,还能洞察癌症的意图。早期对游离DNA的研究暗示了这种可能性:血液检测或许有一天不仅能告诉我们癌症的起源,还能告诉我们它是否可能对健康构成威胁。目前,我们正处于希望与证据之间的边缘地带。在这个领域,希望仍然大于确定性,完美筛查的圣杯仍然遥不可及。

这是摘自The Emperor of All Maladies”十五周年纪念版的最新内容。

说明:本号刊发自各方的文章,是为了获得更全面的信息,不代表本号支持文章中的观点。由于微信公众号每天只能推送一次,无法即时更新,因此,本站目前在腾讯新闻发布最新的文章,每天24小时不间断更新,请收藏以下地址(请完整复制),随时刷新:

https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D