体检难以查出的癌症，用AI居然可以？！|全国肿瘤|医生|癌症|胃癌|胰腺癌|食管癌

一位女士连续十年体检结果都显示正常，却突然被确诊为晚期癌症。这事儿最近刷屏了——原来体检报告上的“一切正常”，有时候还真不一定能揪出那些潜藏的坏细胞。

《自然·医学》杂志上近期刊登的一项中国研究发现：AI可能是个神助攻！科学家们训练了一个AI，只靠普通的平扫CT，居然成功识别出了早期胃癌！

而且，在此之前，他们在胰腺癌上也进行了成功的验证。抱着强烈的好奇心，我最近去了阿里达摩院，与论文一作、AI图像识别专家夏英达博士深度畅聊，看他和团队如何把AI炼出“火眼金睛”，将日常CT检查变成癌症早筛工具，而且，这技术已经在医院用上啦！

夏英达

阿里巴巴达摩院

医疗AI实验室算法工程师

文字内容摘自本期播客，完整音频见文末

特别感谢音频剪辑伙伴：没事喵一个

菠萝：最开始想到用平扫CT做癌症筛查是谁的想法？

夏英达：这个项目源于我们合作的曹医生的经历。这是一个有点悲伤的故事，他的一位老师五十多岁时因胰腺癌去世。曹医生后来查看老师两年前的胸部CT平扫片子时，凭借经验发现那时已有胰腺癌的迹象。

常规胸部CT平扫主要用于检查肺部结节等问题，但也会扫到部分胰腺。经验丰富的医生在知道患者后来得了胰腺癌的前提下，回顾性仔细查看这些CT片，是有可能发现早期迹象的。因此，曹医生想到，能否利用这些日常体检中产生、但通常不用来看胰腺的平扫CT数据，借助AI早期发现胰腺癌。

但实现这个想法很困难：人眼在平扫CT上识别早期胰腺病变本身就很难；目前也没有相关的临床规范；医生缺乏这方面的培训；我们也没有前期研究或经验支持。胰腺癌发病率低，筛查工具精度必须非常高，假阳性太多会带来巨大负担，失去筛查意义。所以最初的尝试完全是偶然的。

但初步结果意外发现，AI识别的准确率相当高，这里面当然有运气成分，很多科学研究的突破，多多少少都有点好运加持。

我在博士期间也做了很多一线影像的工作，当时我所在的霍普金斯医学院有一位合作的世界知名放射专家，我们也请教过他的观点，当时他给出的意见是“Don't think about it”，也就是说平扫CT来看胰腺癌完全不可能，这符合医生的普遍认知和我们早期实验的观察——即使在PET-CT上，人眼识别早期胰腺癌也很困难。

但是尝试性的成功试验给了我们很大的信心，决定深入研究。从想法到初步实验很快，只用了几个月。但从初步结果到严谨验证则耗时很长：需要提升算法精度；医学数据收集困难，实验设计复杂；整个详细验证过程花了1到2年。完成这些后，我们才将研究投稿。

菠萝：所以我很好奇，你们给AI喂了多少片子和数据，才能有这么高的精度？

夏英达：其实是一家一线城市医院连续几年的数据和病。因为胰腺癌还是相对比较罕见的，我们用了大几千个肿瘤数据，在这个领域算是数据体量比较大的。大部分胰腺癌是没法手术的，而我们只用了可以手术的病例，希望能发现早期的可手术的胰腺癌，发现之后有办法进行处理，如果很晚期的胰腺癌其实提示意义也不大了。

菠萝：你们是把可以手术的胰腺癌患者的平扫CT片子喂给了AI，然后让它来研究一下有什么特点吗？

夏英达：从科普的角度就是这个意思。但平扫CT其实分辨率相对较低。给AI去看它也是一头雾水，不知道看什么东西。所以要想进一步提高精度，就需要一些其他的模型设计。

一个关键的设计是利用增强CT。我们收集了配对的平扫CT和增强CT数据，拿到这个数据后，医生在知道患者确诊胰腺癌的前提下，可以在增强CT上比较准确地勾画出胰腺肿瘤的位置、形状和边界。然后，我们再反过头来，通过图像配准技术，将增强CT上医生标注的精确肿瘤信息（位置、形状等）对应到同一次检查的平扫CT图像上。这样，AI在分析平扫CT时，就能明确知道需要关注的目标区域和特征，也就是有了挖掘的目标，从而更有效地学习到相关的特征，那它就知道要“看”什么了。

还有一个很有趣的现象，CT图像具有很宽的色彩分辨率（例如从-1024到1024或更高），并且是连续的灰度图像，这个是高于人眼的。人眼对灰度差异的分辨能力有限，但对于AI而言，处理的是数字本身，不受这种限制。因此，AI可能比人眼更能捕捉到平扫CT中细微的数值变化和模式，我们推测这可能是AI在该任务上表现更好的原因。

菠萝：所以未来的目标就是，在不知道这个人有没有得胰腺癌的情况下，通过CT判断是否有相关风险。未来会应用到别的肿瘤吗？

夏英达：我们现在也应用到了胃癌，思路是类似的，也是先由医生在增强CT上去画，然后再反过来对应平扫CT。我们希望这套思路能够应用在更多的肿瘤病种，目前也在逐步验证中，经过严谨的验证之后再进发布。因为癌症是很复杂的疾病，各个癌种一个一个解决，其实会更严谨。

菠萝：在做胃这种器官的时候，和胰腺会有区别吗？

夏英达：有一个根本性的区别，胰腺是实性脏器（腺体），其肿瘤在CT图像上相对更容易观察，一个实性肿瘤生长在实性器官上，对比度相对明显。而空腔脏器（如胃、食管、肠道）则不同，其内部是空的，肿瘤往往生长在内壁上。这给我们带来了巨大挑战。与临床医生交流时，他们也会认为在空腔脏器上用CT检测肿瘤是更不可能完成的任务。通常情况下，胃癌、肠癌、食管癌的发现和确诊通常依赖内镜检查和活检，强调“眼见为实”。

因此，我们未来的工作其实可能会在这个问题上有重大突破——我们发现这套技术方案在空腔脏器上也具有可行性！这意味着其潜力可以拓展到更多空腔器官。尤其在中国，胃病受到高度重视且极为常见。如果能在消化道肿瘤（如胃癌）上验证我们技术的有效性，其实是非常有意义的事情。

当然，我们也希望探索其他肿瘤类型，但在实际操作中面临很多困难。在相同数据规模和技术方案下，胃癌筛查的性能远低于胰腺癌；其实也体现了消化道肿瘤的检测难度确实远高于实性脏器。

机缘巧合下，我们与浙江省肿瘤医院达成了合作。对方给予了我们极大的支持，我们两个团队紧密协作。尤其幸运的是，医院程书记本人正是胃癌领域的权威专家，他的参与给了我们很大的信心。作为科研工作者，我们渴望挑战那些“不可能”的任务，因为这样的成果才更具影响力。正是通过这种深度的紧密合作，我们逐渐达成目标，最终在胃癌筛查上也达到了令人满意的精度水平。

菠萝：说到CT这事儿，因为CT是有辐射的，那我们能不能把这个技术用在别的影像上，比如核磁？

夏英达：同样的技术方案在核磁上理论上是可以尝试的，但是我们为什么选择CT？首先CT的量是最大的，尤其是新冠几年，拍了很多的肺部影像，而且现在CT的剂量是越做越低的。现在大家去做体检都是做的低剂量CT，带来的辐射几乎对人体没有影响。另一方面，核磁现在最大的问题其实就是慢，又慢又贵，经济负担会大一些。其实不同的影像在AI眼里都差不多，都是数据的统计和归纳。

菠萝：现在这个东西是在研究层面，还是已经布局到医院了？

夏英达：已经落地了，我们在多家医院都已经实际部署了相关AI工具。比如最新的胃癌筛查模型，现在已经在浙江省肿瘤医院全量使用了。这意味着，医院里任何科室、出于任何目的进行的CT检查，其图像都会自动经过该模型分析，实现机会性的癌症风险筛查。该工具也将很快推广至更多医院，开展前瞻性的临床试验。

从临床角度看，该工具的核心作用是提示风险。当模型判定结果为阳性（高风险）时，医生会进行复核。若医生也认为情况可疑，便会主动联系患者，告知其胃癌或胰腺癌高危风险，并建议其接受进一步检查。如果患者同意，则通过后续检查明确诊断，这其实是一个比较好的发现早期癌症的路径。

我们必须保证模型的特异性很高，因为如果特异性低了，假阳性率就会特别高，假如特异性90%，听起来已经很高了，但是如果做一个10万人的筛查，将产生1万人的假阳性，医生需要复查海量的结果，对社会、医院和个人都是很大的负担。因此，模型实际应用时必须确保其特异性极高，假阳性率极低——我们的目标是将特异性严格控制在99%以上。

菠萝：在医院里运行这套流程有挑战吗？会有人不相信吗？

夏英达：确实很难，毕竟这些患者本身就不是来做胃部检查的，可能是感冒或者哪儿疼，随便拍了一个CT，过两天接到电话被告知有胃癌的风险，那第一反应肯定是诈骗，这是非常正常的想法。所以现在一个最大的问题就是患者的依从性不佳，召回率较低。

我们一直在努力提高AI工具的准确率，也希望大家一旦被提示高危，能多听医嘱，因为这并不是单独由AI给出的结论，而是AI辅助下，经验丰富的医生给出的判断，是相对准确的。这项服务也没有收费，就是希望能够尽可能发现更多的早期癌症，挽救更多人的生命，因为早期和晚期的治疗结果真的差别很大。

菠萝：有没有让你印象特别深的案例？让你觉得这件事真正帮到人了？

夏英达：有一个患者让我感触很深。她是一位很年轻的女性，父母是聋哑人。开始因为咳嗽做了胸部CT，AI提示胰腺癌阳性，经过医生的确诊，就想把她召回复诊。但是总是无法说服她，她一直说如果去做手术，父母就没人照顾了。即使这样，医生也没有放弃，坚持不懈地提醒她，要是不及时检查，后面可能更没法照顾父母。这位医生的精神也非常令人感动，真的就是纯粹地想救人。最后，正是因为医生的不断提醒，患者在其他医院做了手术，发现真的是极早期的胰腺癌，治疗后基本不影响寿命，其实这是非常罕见的事情。

菠萝：发现极早期胰腺癌真的很难，因为没有任何症状。是不是也要扫好多好多CT才能发现一两个这种案例？

夏英达：是的，我们的技术已累计应用于十几万例的筛查。令人鼓舞的是，其中约50% 被发现的胰腺癌病例处于早期、可手术阶段。尤为关键的是，这些发现均是在患者尚无任何胰腺相关症状的常规检查中实现的。这就证明，利用该工具对无症状人群进行筛查，确实具备在早期阶段识别出胰腺癌并争取治愈机会的潜力。正如前面提到的病例，不仅能帮助患者，更是由此挽救一个家庭。

菠萝：现在还有很多的其它筛查工具，包括液体活检、无创筛查等，咱们这种技术在哪些方面会有比较好的优势呢？

夏英达：首先，基于影像的筛查是相对客观的——如果影像已经有表现了，其实有没有肿瘤是比较明确的。另一方面，液体活检肯定是非常有价值的，也是最近非常火的方向和趋势，未来应该是各种方式相辅相成。

癌症的检出绝不可能依赖单一方法。无论是当前热门的液体活检，还是我们探索的基于CT的机会性筛查，都在向覆盖多癌种的方向发展。未来，整合多种检测方式、多种筛查策略，将有效推动癌症诊断窗口前移，使更多癌症在更早期阶段得以确诊——这无疑是降低癌症死亡率的最有效途径。

菠萝：所以基于胃癌也好，或者胰腺癌，你们下一步的计划是什么呢？

夏英达：我们首先是想把这个事情做到底，除了单点突破，还要去把前瞻性临床试验验证做好。所谓前瞻性，就是将我们的软件实际部署到医院等临床环境中，通过收集和分析数据，切实评估未来能否提升早期诊断率并最终改善患者生存预后。

与此同时，拓展筛查癌种也是我们重要的努力方向。目前，针对食管癌、结直肠癌、肝癌等癌种的筛查模型也正处于验证阶段。我们最终的目标，是开发一个泛癌种筛查工具，也就是就是用一个CT把所有的癌症都筛查了。

菠萝：从AI应用到临床上来说，你个人比较看好的几个方向是什么？

夏英达：其实AI能在医疗上做的事情是非常多的，我们只是集中在了其中一个非常小的子领域。想象一下，当患者进入医院，最基础的需求之一就是精准导诊——现在利用大语言模型来优化分诊流程的应用已经非常多了。

菠萝：我听过一个笑话，就是有人乳腺上长了一个包，他去到胸外科，结果被告知胸外科不是看胸外的事情，是看胸内的事情——胸外科是看肺部的……所以确实像你说的，大多数人的直觉不一定在医院能够匹配上真正应该去的地方。

夏英达：导诊仅是开端。从诊疗全流程看，核心环节包括：筛查、诊断、治疗、预后。我们现在开发的工具是做筛查，侧重于患者入院前的风险提示。而诊断环节则是明确问题所在的，AI在此阶段也大有可为，比如辅助内镜检查、病理判读，甚至通过整合患者症状描述、临床指标等，通过大语言模型，结合多模态的AI进行综合诊断，这都是AI极具价值的方向。最近就有一个AI大模型成功诊断罕见病例的新闻，其表现超越了众多医生。毕竟AI模型都是通过大量的知识去进行归纳总结，有些病可能医生一辈子都见不到一例，但是AI见过不少。

预后同样关键。比如对于某位患者，AI能辅助预测：选择治疗方案A或B，可能的生存期、治疗费用等预后信息，为医患决策提供重要参考，这其实也是一个很有价值的事情。

还有一些其他的方向，比如手术机器人其实也与AI相关。再有就是AI辅助类工具，比如在保险方面，用AI来帮助你快速报销，和保险公司算账等等。所以我觉得在整个医疗的方方面面，AI都会产生深刻的影响，这一天到底何时到来，我们还未可知。

菠萝：你刚才讲到整个流程，我觉得还有一个特别重要的事，就是治疗后的随访。尤其像肿瘤患者，放化疗后可能面临长期副作用（如心脏毒性）。但治疗结束后，患者往往缺乏系统指导，不清楚除了肿瘤复查，还需定期检查相关器官（如心脏）以保障长期生活质量。AI在此类主动提示和健康管理方面，效率会非常高。

AI还有什么别的非医学的应用场景吗？

夏英达：AI其实可以做很多事情。只要有需求就有市场，在各行各业都会有一些影响。比如在医美行业，如果让整形医生通过经验来做设计，可能会按照某个明星的样子给你做，如果让AI基于你个人特征来设计，虽然不像女明星，却可能更符合个性化审美。

牙科领域，尤其是正畸治疗规划，同样大量融入了AI技术。也是同样的道理，按照自己的长相做一个操作步骤少，既符合审美、又保留个人特点的方案。

菠萝：作为一个AI专家，你觉得以后AI真的会显著比人类更厉害吗？

夏英达：这个其实我是相信的。现在已经印证了，AI在各个行业都超过人的归纳能力。因为数据见得太多了，他不一定超越最厉害的专家，但是超越一个平均水平的工作者是没有问题的。

AI甚至有望作出创新性的科学发现，人类科技的进步，历来是非常聪明的人在推着历史车轮往前走。那么，是否有一天，AI也能通过其强大的推理能力，独立做出新的科学突破？这是非常值得期待的一件事情，也是非常可怕的一件事情。

我以前是非常鄙视AI危险论的。在AI有之前其实就有讲述AI如何危险的电影，但作为早期的AI研究者，那个时候我所认识的AI做一些非常普通的任务还做不明白，怎么可能超越人类呢？甚至大模型刚出来的时候，我也是非常鄙视这种危险论的，认为也只是一个归纳模型。但是现在大模型的推理能力越来越强，甚至能解决一些非常难的数学问题，这需要很强的推理和逻辑能力，所以我现在也逐渐有点相信这个AI危险论了。至于未来究竟会怎样，让我们拭目以待。

—听夏英达博士聊更多关于AI筛查—

/本期志愿者/