医药研发平均烧掉26亿美元才能上市一款新药,其中超过半数死在靶点选错上。这不是技术瓶颈,是方法论的根本缺陷——我们用相关性找药,却期待因果性的疗效。
一位叫NeoRx的开发者做了个实验:把Pearl的因果推断(Causal Inference,一种从数据中识别因果关系而非相关性的统计方法)搬进药物发现,连测7种疾病。结果6次碾压传统相关性分析,唯一一次"翻车"反而暴露了行业最隐蔽的坑。
两套流水线,同一个知识图谱
实验设计很直接。对每种疾病,NeoRx跑两条完全独立的靶点筛选管道:
相关性管道:按原始关联分数排序,谁和疾病"看起来有关"就排前面
因果管道:Pearl因果推断 + 生物学智能 + ChEMBL病原体数据 + 疾病特异性评分
验证标准只有一个:和FDA已批准药物的靶点重合度。这是硬通货——能上市的药,靶点至少经过了临床验证。
HIV是因果管道最漂亮的胜仗。POL基因编码的蛋白酶、逆转录酶、整合酶,在NeoRx里排第1位,置信度0.990。这恰好是26种以上FDA批准抗逆转录药物的作用靶点,包括依非韦伦、多替拉韦、达芦那韦。
更细的是人类靶点排名。CCR5排在第11位,带着HOST_INVASION(宿主入侵)分类标签——这正是HIV进入细胞的门把手,Maraviroc等药物的核心靶点。
相关性管道?它可能把POL埋在几百个"统计学显著"的噪声里。
6:1的胜率,和那个"失败"的教训
7种疾病测完,因果管道6次显著优于相关性方法。但第7次"没赢"的那场,作者说"教会了我最重要的一课"。
原文没展开细节,但逻辑不难推:因果推断不是万能钥匙。当疾病机制本身模糊、知识图谱覆盖不足、或者因果链条过长时,算法会诚实地说"我不知道"——而相关性分析会继续给你一份看起来很漂亮的长名单。
这在药厂是灾难性的日常。临床前研究把某个蛋白敲除,小鼠症状改善,团队欢呼"找到靶点"。进了一期临床才发现,那个蛋白和疾病只是共表达,真正的因果节点藏在更上游。26亿美元里,相当一部分就是这样烧掉的。
Pearl的框架核心是做减法。不是"这些基因都和糖尿病相关",而是"如果干预这个基因,血糖会不会变"——中间隔着do-calculus(Pearl提出的因果演算,用于从观测数据推导干预效果)的严格推导。
为什么现在才有人做?
因果推断不是新东西。Pearl的《因果论》出版于2009年,图灵奖都拿了五年。但药物发现的知识图谱直到近年才成熟到能支撑大规模验证——ChEMBL的化合物-靶点-疾病数据、GTEx的表达谱、ClinVar的变异注释,这些基础设施是2015年后才串起来的。
另一个障碍是文化。生物信息学团队习惯了p值和富集分析,因果图(Causal DAG,有向无环图,用于显式建模变量间的因果关系)需要领域专家坐下来画节点和边。这很慢,很烦,而且不像深度学习那样能吹"AI发现新药"的PR稿。
NeoRx的做法是混合:算法跑因果结构,但注入人工整理的生物学规则。比如HOST_INVASION这类标签,不是从数据里统计出来的,是病毒学家几十年积累的常识。这种"人机回环"在纯ML派看来不够优雅,但在FDA面前更管用。
作者的身份也有意思——"Polymath engineer",后端和AI系统出身,现在做因果推理和分子生物工程。这种跨界在药物发现领域越来越常见。传统药企的化学家主导模式,正在被懂计算的人撕开口子。
从HIV到其他疾病的迁移
HIV的胜利有特殊性。病毒基因组小,生命周期清楚,靶点和表型的因果链短。POL编码的酶直接参与复制,干扰它病毒就死——这种"机械论清晰"是因果推断的舒适区。
但慢性病就麻烦多了。2型糖尿病涉及胰岛素抵抗、β细胞衰竭、炎症、肠道菌群,因果网络稠密得像蜘蛛网。阿尔茨海默更是重灾区,淀粉样蛋白假说折腾二十年,最近才承认可能找错了靶。
NeoRx的第七次"失败"大概率栽在这种复杂疾病上。这不是算法的失败,是暴露了我们知识边界的诚实信号。相关性方法的问题是会给你虚假信心,因果推断的问题是会直接告诉你"这题超纲"。
对药厂来说,后者其实更值钱。早死早超生,临床前砍掉一个假阳性靶点,比二期临床才发现省几个亿。
作者没透露另外5种胜利的疾病名单,但提到"6次显著优于"——这个比例本身就在挑战行业惯例。如果因果推断能在半数以上疾病类型里稳定胜出,它就不再是学术玩具,而是必须纳入标准流程的基础设施。
ChEMBL的整合也很关键。这个欧洲生物信息研究所维护的数据库,收录了超过200万种化合物和1.4万个靶点的实验数据。NeoRx把它接进病原体分析管道,意味着因果推断不只是看"这个基因变,疾病变",还要看"有没有分子能碰这个基因"。
这是药物发现和基础医学研究的根本区别。后者可以满足于"理解机制",前者必须回答"能不能成药"。
当"第二大脑"遇见分子设计
有意思的是,这位作者的另一篇文章被Medium推荐在旁边:《我用Karpathy的LLM Wiki建了套自维护知识库》。Andrej Karpathy去年鼓吹"氛围编程"(Vibe Coding,指完全依赖AI生成代码而不深入理解),今年却转向用AI整理研究笔记——不是写代码,是建第二大脑。
这两条线的交汇点可能是:药物发现的知识图谱本身,也需要类似的自维护机制。ChEMBL每月更新,文献每天爆炸,手工维护因果图的节点和边不现实。LLM提取关系、人类专家审核、因果算法验证——这个三角可能是下一代工具的形态。
Pearl本人一直在批评AI领域的"曲线拟合"狂热。他的观点是,没有因果模型的深度学习,只是在更高维度重复相关性错误。药物发现是这句话最昂贵的注脚。
NeoRx的实验规模还很小——7种疾病,对比两种方法。但方向是对的:用已批准药物做回测,建立可量化的验证标准。这比"我们预测了100个靶点,等十年后看有没有成药"的套路诚实得多。
作者说第七次失败"教会了最重要的一课"。我猜这课是:因果推断的边界条件,和它的成功案例同样值得产品化。知道什么时候不该信算法,是成熟工具的标志。
药厂的260亿美元学费,有多少付给了"统计学显著但因果错误"的靶点?NeoRx没给这个数字,但6:1的胜率已经够刺耳了。如果行业开始系统性采用因果筛选,最先被淘汰的可能是那些靠p值混饭吃的生物信息学供应商。
最后一个细节:POL在HIV里的置信度是0.990,不是1.0。算法留了0.01的谦逊,这0.01里藏着所有还没被发现的相互作用、脱靶效应、个体差异。绝对置信在科学里是红旗,0.990才是负责任的输出。
当因果推断开始学会说"我不知道",而相关性分析还在滔滔不绝时,你选择信哪个?
热门跟贴