一位女士连续十年体检结果都显示正常,却突然被确诊为晚期癌症。这事儿最近刷屏了——原来体检报告上的“一切正常”,有时候还真不一定能揪出那些潜藏的坏细胞。
《自然·医学》杂志上近期刊登的一项中国研究发现:AI可能是个神助攻!科学家们训练了一个AI,只靠普通的平扫CT,居然成功识别出了早期胃癌!
而且,在此之前,他们在胰腺癌上也进行了成功的验证。抱着强烈的好奇心,我最近去了阿里达摩院,与论文一作、AI图像识别专家夏英达博士深度畅聊,看他和团队如何把AI炼出“火眼金睛”,将日常CT检查变成癌症早筛工具,而且,这技术已经在医院用上啦!
夏英达
阿里巴巴达摩院
医疗AI实验室算法工程师
文字内容摘自本期播客,完整音频见文末
特别感谢音频剪辑伙伴:没事喵一个
菠萝:最开始想到用平扫CT做癌症筛查是谁的想法?
夏英达:这个项目源于我们合作的曹医生的经历。这是一个有点悲伤的故事,他的一位老师五十多岁时因胰腺癌去世。曹医生后来查看老师两年前的胸部CT平扫片子时,凭借经验发现那时已有胰腺癌的迹象。
常规胸部CT平扫主要用于检查肺部结节等问题,但也会扫到部分胰腺。经验丰富的医生在知道患者后来得了胰腺癌的前提下,回顾性仔细查看这些CT片,是有可能发现早期迹象的。因此,曹医生想到,能否利用这些日常体检中产生、但通常不用来看胰腺的平扫CT数据,借助AI早期发现胰腺癌。
但实现这个想法很困难:人眼在平扫CT上识别早期胰腺病变本身就很难;目前也没有相关的临床规范;医生缺乏这方面的培训;我们也没有前期研究或经验支持。胰腺癌发病率低,筛查工具精度必须非常高,假阳性太多会带来巨大负担,失去筛查意义。所以最初的尝试完全是偶然的。
但初步结果意外发现,AI识别的准确率相当高,这里面当然有运气成分,很多科学研究的突破,多多少少都有点好运加持。
我在博士期间也做了很多一线影像的工作,当时我所在的霍普金斯医学院有一位合作的世界知名放射专家,我们也请教过他的观点,当时他给出的意见是“Don't think about it”,也就是说平扫CT来看胰腺癌完全不可能,这符合医生的普遍认知和我们早期实验的观察——即使在PET-CT上,人眼识别早期胰腺癌也很困难。
但是尝试性的成功试验给了我们很大的信心,决定深入研究。从想法到初步实验很快,只用了几个月。但从初步结果到严谨验证则耗时很长:需要提升算法精度;医学数据收集困难,实验设计复杂;整个详细验证过程花了1到2年。完成这些后,我们才将研究投稿。
菠萝:所以我很好奇,你们给AI喂了多少片子和数据,才能有这么高的精度?
夏英达:其实是一家一线城市医院连续几年的数据和病。因为胰腺癌还是相对比较罕见的,我们用了大几千个肿瘤数据,在这个领域算是数据体量比较大的。大部分胰腺癌是没法手术的,而我们只用了可以手术的病例,希望能发现早期的可手术的胰腺癌,发现之后有办法进行处理,如果很晚期的胰腺癌其实提示意义也不大了。
菠萝:你们是把可以手术的胰腺癌患者的平扫CT片子喂给了AI,然后让它来研究一下有什么特点吗?
夏英达:从科普的角度就是这个意思。但平扫CT其实分辨率相对较低。给AI去看它也是一头雾水,不知道看什么东西。所以要想进一步提高精度,就需要一些其他的模型设计。
一个关键的设计是利用增强CT。我们收集了配对的平扫CT和增强CT数据,拿到这个数据后,医生在知道患者确诊胰腺癌的前提下,可以在增强CT上比较准确地勾画出胰腺肿瘤的位置、形状和边界。然后,我们再反过头来,通过图像配准技术,将增强CT上医生标注的精确肿瘤信息(位置、形状等)对应到同一次检查的平扫CT图像上。这样,AI在分析平扫CT时,就能明确知道需要关注的目标区域和特征,也就是有了挖掘的目标,从而更有效地学习到相关的特征,那它就知道要“看”什么了。
还有一个很有趣的现象,CT图像具有很宽的色彩分辨率(例如从-1024到1024或更高),并且是连续的灰度图像,这个是高于人眼的。人眼对灰度差异的分辨能力有限,但对于AI而言,处理的是数字本身,不受这种限制。因此,AI可能比人眼更能捕捉到平扫CT中细微的数值变化和模式,我们推测这可能是AI在该任务上表现更好的原因。
菠萝:所以未来的目标就是,在不知道这个人有没有得胰腺癌的情况下,通过CT判断是否有相关风险。未来会应用到别的肿瘤吗?
夏英达:我们现在也应用到了胃癌,思路是类似的,也是先由医生在增强CT上去画,然后再反过来对应平扫CT。我们希望这套思路能够应用在更多的肿瘤病种,目前也在逐步验证中,经过严谨的验证之后再进发布。因为癌症是很复杂的疾病,各个癌种一个一个解决,其实会更严谨。
菠萝:在做胃这种器官的时候,和胰腺会有区别吗?
夏英达:有一个根本性的区别,胰腺是实性脏器(腺体),其肿瘤在CT图像上相对更容易观察,一个实性肿瘤生长在实性器官上,对比度相对明显。而空腔脏器(如胃、食管、肠道)则不同,其内部是空的,肿瘤往往生长在内壁上。这给我们带来了巨大挑战。与临床医生交流时,他们也会认为在空腔脏器上用CT检测肿瘤是更不可能完成的任务。通常情况下,胃癌、肠癌、食管癌的发现和确诊通常依赖内镜检查和活检,强调“眼见为实”。
因此,我们未来的工作其实可能会在这个问题上有重大突破——我们发现这套技术方案在空腔脏器上也具有可行性!这意味着其潜力可以拓展到更多空腔器官。尤其在中国,胃病受到高度重视且极为常见。如果能在消化道肿瘤(如胃癌)上验证我们技术的有效性,其实是非常有意义的事情。
当然,我们也希望探索其他肿瘤类型,但在实际操作中面临很多困难。在相同数据规模和技术方案下,胃癌筛查的性能远低于胰腺癌;其实也体现了消化道肿瘤的检测难度确实远高于实性脏器。
机缘巧合下,我们与浙江省肿瘤医院达成了合作。对方给予了我们极大的支持,我们两个团队紧密协作。尤其幸运的是,医院程书记本人正是胃癌领域的权威专家,他的参与给了我们很大的信心。作为科研工作者,我们渴望挑战那些“不可能”的任务,因为这样的成果才更具影响力。正是通过这种深度的紧密合作,我们逐渐达成目标,最终在胃癌筛查上也达到了令人满意的精度水平。
菠萝:说到CT这事儿,因为CT是有辐射的,那我们能不能把这个技术用在别的影像上,比如核磁?
夏英达:同样的技术方案在核磁上理论上是可以尝试的,但是我们为什么选择CT?首先CT的量是最大的,尤其是新冠几年,拍了很多的肺部影像,而且现在CT的剂量是越做越低的。现在大家去做体检都是做的低剂量CT,带来的辐射几乎对人体没有影响。另一方面,核磁现在最大的问题其实就是慢,又慢又贵,经济负担会大一些。其实不同的影像在AI眼里都差不多,都是数据的统计和归纳。
菠萝:现在这个东西是在研究层面,还是已经布局到医院了?
夏英达:已经落地了,我们在多家医院都已经实际部署了相关AI工具。比如最新的胃癌筛查模型,现在已经在浙江省肿瘤医院全量使用了。这意味着,医院里任何科室、出于任何目的进行的CT检查,其图像都会自动经过该模型分析,实现机会性的癌症风险筛查。该工具也将很快推广至更多医院,开展前瞻性的临床试验。
从临床角度看,该工具的核心作用是提示风险。当模型判定结果为阳性(高风险)时,医生会进行复核。若医生也认为情况可疑,便会主动联系患者,告知其胃癌或胰腺癌高危风险,并建议其接受进一步检查。如果患者同意,则通过后续检查明确诊断,这其实是一个比较好的发现早期癌症的路径。
我们必须保证模型的特异性很高,因为如果特异性低了,假阳性率就会特别高,假如特异性90%,听起来已经很高了,但是如果做一个10万人的筛查,将产生1万人的假阳性,医生需要复查海量的结果,对社会、医院和个人都是很大的负担。因此,模型实际应用时必须确保其特异性极高,假阳性率极低——我们的目标是将特异性严格控制在99%以上。
菠萝:在医院里运行这套流程有挑战吗?会有人不相信吗?
夏英达:确实 很难,毕竟这些患者本身就不是来做胃部检查的,可能是感冒或者哪儿疼,随便拍了一个CT,过两天接到电话被告知有胃癌的风险,那第一反应肯定是诈骗,这是非常正常的想法。所以现在一个最大的问题就是患者的依从性不佳,召回率较低。
我们一直在努力提高AI工具的准确率,也希望大家一旦被提示高危,能多听医嘱,因为这并不是单独由AI给出的结论,而是AI辅助下,经验丰富的医生给出的判断,是相对准确的。这项服务也没有收费,就是希望能够尽可能发现更多的早期癌症,挽救更多人的生命,因为早期和晚期的治疗结果真的差别很大。
菠萝:有没有让你印象特别深的案例?让你觉得这件事真正帮到人了?
夏英达:有一个患者让我感触很深。她是一位很年轻的女性,父母是聋哑人。开始因为咳嗽做了胸部CT,AI提示胰腺癌阳性,经过医生的确诊,就想把她召回复诊。但是总是无法说服她,她一直说如果去做手术,父母就没人照顾了。即使这样,医生也没有放弃,坚持不懈地提醒她,要是不及时检查,后面可能更没法照顾父母。这位医生的精神也非常令人感动,真的就是纯粹地想救人。最后,正是因为医生的不断提醒,患者在其他医院做了手术,发现真的是极早期的胰腺癌,治疗后基本不影响寿命,其实这是非常罕见的事情。
菠萝:发现极早期胰腺癌真的很难,因为没有任何症状。是不是也要扫好多好多CT才能发现一两个这种案例?
夏英达:是的,我们的技术已累计应用于十几万例的筛查。令人鼓舞的是,其中约50% 被发现的胰腺癌病例处于早期、可手术阶段。尤为关键的是,这些发现均是在患者尚无任何胰腺相关症状的常规检查中实现的。这就证明,利用该工具对无症状人群进行筛查,确实具备在早期阶段识别出胰腺癌并争取治愈机会的潜力。正如前面提到的病例,不仅能帮助患者,更是由此挽救一个家庭。
菠萝:现在还有很多的其它筛查工具,包括液体活检、无创筛查等,咱们这种技术在哪些方面会有比较好的优势呢?
夏英达:首先,基于影像的筛查是相对客观的——如果影像已经有表现了,其实有没有肿瘤是比较明确的。另一方面,液体活检肯定是非常有价值的,也是最近非常火的方向和趋势,未来应该是各种方式相辅相成。
癌症的检出绝不可能依赖单一方法。无论是当前热门的液体活检,还是我们探索的基于CT的机会性筛查,都在向覆盖多癌种的方向发展。未来,整合多种检测方式、多种筛查策略,将有效推动癌症诊断窗口前移,使更多癌症在更早期阶段得以确诊——这无疑是降低癌症死亡率的最有效途径。
菠萝:所以基于胃癌也好,或者胰腺癌,你们下一步的计划是什么呢?
夏英达:我们首先是想把这个事情做到底,除了单点突破,还要去把前瞻性临床试验验证做好。所谓前瞻性,就是将我们的软件实际部署到医院等临床环境中,通过收集和分析数据,切实评估未来能否提升早期诊断率并最终改善患者生存预后。
与此同时,拓展筛查癌种也是我们重要的努力方向。目前,针对食管癌、结直肠癌、肝癌等癌种的筛查模型也正处于验证阶段。我们最终的目标,是开发一个泛癌种筛查工具,也就是就是用一个CT把所有的癌症都筛查了。
菠萝:从AI应用到临床上来说,你个人比较看好的几个方向是什么?
夏英达:其实AI能在医疗上做的事情是非常多的,我们只是集中在了其中一个非常小的子领域。想象一下,当患者进入医院,最基础的需求之一就是精准导诊——现在利用大语言模型来优化分诊流程的应用已经非常多了。
菠萝:我听过一个笑话,就是有人乳腺上长了一个包,他去到胸外科,结果被告知胸外科不是看胸外的事情,是看胸内的事情——胸外科是看肺部的……所以确实像你说的,大多数人的直觉不一定在医院能够匹配上真正应该去的地方。
夏英达:导诊仅是开端。从诊疗全流程看,核心环节包括:筛查、诊断、治疗、预后。我们现在开发的工具是做筛查,侧重于患者入院前的风险提示。而诊断环节则是明确问题所在的,AI在此阶段也大有可为,比如辅助内镜检查、病理判读,甚至通过整合患者症状描述、临床指标等,通过大语言模型,结合多模态的AI进行综合诊断,这都是AI极具价值的方向。最近就有一个AI大模型成功诊断罕见病例的新闻,其表现超越了众多医生。毕竟AI模型都是通过大量的知识去进行归纳总结,有些病可能医生一辈子都见不到一例,但是AI见过不少。
预后同样关键。比如对于某位患者,AI能辅助预测:选择治疗方案A或B,可能的生存期、治疗费用等预后信息,为医患决策提供重要参考,这其实也是一个很有价值的事情。
还有一些其他的方向,比如手术机器人其实也与AI相关。再有就是AI辅助类工具,比如在保险方面,用AI来帮助你快速报销,和保险公司算账等等。所以我觉得在整个医疗的方方面面,AI都会产生深刻的影响,这一天到底何时到来,我们还未可知。
菠萝:你刚才讲到整个流程,我觉得还有一个特别重要的事,就是治疗后的随访。尤其像肿瘤患者,放化疗后可能面临长期副作用(如心脏毒性)。但治疗结束后,患者往往缺乏系统指导,不清楚除了肿瘤复查,还需定期检查相关器官(如心脏)以保障长期生活质量。AI在此类主动提示和健康管理方面,效率会非常高。
AI还有什么别的非医学的应用场景吗?
夏英达:AI其实可以做很多事情。只要有需求就有市场,在各行各业都会有一些影响。比如在医美行业,如果让整形医生通过经验来做设计,可能会按照某个明星的样子给你做,如果让AI基于你个人特征来设计,虽然不像女明星,却可能更符合个性化审美。
牙科领域,尤其是正畸治疗规划,同样大量融入了AI技术。也是同样的道理,按照自己的长相做一个操作步骤少,既符合审美、又保留个人特点的方案。
菠萝:作为一个AI专家,你觉得以后AI真的会显著比人类更厉害吗?
夏英达:这个其实我是相信的。现在已经印证了,AI在各个行业都超过人的归纳能力。因为数据见得太多了,他不一定超越最厉害的专家,但是超越一个平均水平的工作者是没有问题的。
AI甚至有望作出创新性的科学发现,人类科技的进步,历来是非常聪明的人在推着历史车轮往前走。那么,是否有一天,AI也能通过其强大的推理能力,独立做出新的科学突破?这是非常值得期待的一件事情,也是非常可怕的一件事情。
我以前是非常鄙视AI危险论的。在AI有之前其实就有讲述AI如何危险的电影,但作为早期的AI研究者,那个时候我所认识的AI做一些非常普通的任务还做不明白,怎么可能超越人类呢?甚至大模型刚出来的时候,我也是非常鄙视这种危险论的,认为也只是一个归纳模型。但是现在大模型的推理能力越来越强,甚至能解决一些非常难的数学问题,这需要很强的推理和逻辑能力,所以我现在也逐渐有点相信这个AI危险论了。至于未来究竟会怎样,让我们拭目以待。
—听夏英达博士聊更多关于AI筛查—
/本期志愿者/
热门跟贴