打开网易新闻 查看精彩图片

撰文丨王聪

编辑丨王多鱼

排版丨水成文

免疫检查点抑制剂、CAR-T 细胞疗法等癌症免疫治疗,已实现传统化疗或靶向药物难以达到的持久缓解,重塑了多种血液系统恶性肿瘤及部分实体瘤的治疗格局。然而,一个尴尬的事实是——同样的免疫治疗,对一个患者有效,对另一个患者可能完全没用,还可能带来严重的副作用。

这一挑战源于免疫系统本身作为复杂自适应系统的特性,其由多种细胞群体与物理微环境之间高维且随机的相互作用所调控。因此,依赖线性相关性的传统生物标志物往往无法捕捉免疫反应的非线性依赖背景。这导致我们虽然已积累了海量的测序数据,却常常读不懂这背后的机制。

要克服这些局限性,必须从描述性和回顾性分析转向预测性和机制性建模。尽管免疫学依赖于假设驱动的低通量实验,而人工智能(AI)却有望解析高维模式和潜在逻辑。诸如 scGPT 和 Evo 等模型已证明,通过从现有数据中学习,能够实现对未知生物领域的外,构建预测性虚拟细胞(Virtual Cell)也已成为下一代计算生物学的关键前沿。

近日,复旦大学附属中山医院高强教授、上海交通大学溥渊未来技术学院/临港实验室郑双佳研究员、复旦大学附属中山医院/斯坦福大学吴英成博士、西湖大学郭天南教授、复旦大学/上海人工智能实验室孙思琦研究员、普林斯顿大学载熙博士、浙江大学/良渚实验室郭国骥教授、同济大学刘琦教授、华东师范大学叶海峰教授、上海人工智能实验室白磊研究员、字节跳动 Seed郑在翔博士等,在Cancer Cell发表了题为:OpenIO: An open framework for AI-native immunotherapy 的文章,提出了开源肿瘤免疫(Open Immune Oncology,OpenIO),这是一个融合生成式人工智能与组学技术以推动精准肿瘤学发展的框架。通过利用生物学的缩放定律和基础模型,目标是将免疫治疗从经验性筛选转变为基于 AI 的理性化治疗干预设计。简单来说,就是让 AI 不仅能够“读懂”免疫系统,还能“设计”出更精准的癌症免疫治疗方案。

打开网易新闻 查看精彩图片

给生物学“分词”:AI 理解免疫的第一步

要让 AI 处理生物学数据,首先得解决“语言不通”的问题。

OpenIO提出了“生物学分词”(Tokenization of Biology)的概念:把单个细胞的转录组状态看作一个“词元”(Token),把组织微环境看作一段“上下文窗口”,基因就像字母,基因程序像短语,而细胞就像句子。

和传统自然语言处理不同,这里的“词”既有离散信息(比如细胞类型),也有连续信息(比如基因表达量、空间坐标)。通过这种混合分词方式,就能用 Transformer 架构训练通用免疫学习器——它可以补全被掩盖的基因序列,从 RNA 预测蛋白丰度,甚至推断出缺失的空间坐标。本质上,这是给 AI 一本“免疫词典”,让它学会免疫系统的“语法”。

免疫学也有“Scaling Law”?数据越多,智能越强

大模型领域有个著名现象——模型性能随参数规模和训练数据量的增加而提升,即“缩放定律”(Scaling Law)。OpenIO团队大胆假设:免疫系统也存在类似的缩放定律——当用于训练的“细胞 Token”多样性足够高、质量足够好时,模型的预测能力会实现质的飞跃。

当然,生物学数据和文本数据有本质区别:它更嘈杂、随机性更强,而且不同医院的检测标准不统一,容易引入“批次效应”。所以 OpenIO 特别强调数据质量、多样性和多模态对齐——

  • 规模缩放:从百万级细胞扩展到十亿甚至万亿级细胞,覆盖不同组织、疾病状态和干预手段,模型有望学会细胞身份识别、调控回路解析,甚至扰动响应预测。

  • 多样性缩放:免疫受体库(TCR/BCR)的理论可能性高达 10¹⁵ 种,极度稀疏。但团队认为,随着覆盖的序列空间增加,模型会从“死记硬背”转向“抽象推理”,真正掌握抗原结合的物理规则。

  • 模态缩放:把 DNA/RNA 序列、蛋白质三维结构、临床纵向数据对齐融合,打破单组学模型的瓶颈。比如,仅凭批量基因表达数据,就能预测肿瘤的空间组织结构,判断它是“冷肿瘤”(免疫排斥)还是“热肿瘤”(免疫浸润)。

三大基础模型:构建免疫系统的“数字底座”

基于上述思路,OpenIO计划打造三类核心基础模型,构成免疫智能的基石——

1、免疫语言模型

类似 IgLM 这样的模型,将在数亿条免疫受体序列上训练,学习 V(D)J 重排和体细胞高频突变的统计规律。未来不仅能“读取”免疫组库,还能“书写”——从头设计自然界不存在的抗体序列。

2、抗原呈递模型

靶点找不准,武器再好也没用。这类模型将整合基因组、蛋白组、结构信息,从体细胞突变到 MHC 结合再到 T 细胞识别,全链条预测抗原呈递概率和免疫原性。相比现有工具只模拟单一环节,它能给出更全面的评估。

3、微环境世界模型

肿瘤微环境是免疫细胞作战的“战场”。OpenIO 提出用多智能体强化学习构建“微环境世界模型”:每个细胞都是一个智能体,其决策由自身基因调控网络驱动。模型不需要完美复刻生物学细节,而是学习空间动力学的统计生成规则,支持在计算机中模拟各种干预手段的效果。

打开网易新闻 查看精彩图片

OpenIO 框架、架构及生态系统的概述

生成式免疫治疗:从“大海捞针”到“按需设计”

传统药物研发大多是“筛选”:从海量天然分子里碰运气找苗头化合物。OpenIO 的目标是“生成”:用 AI 直接设计所需的治疗分子。

为了衡量进展,OpenIO 团队提出了一个新指标:生成产率(Generative Yield)——临床候选分子中,通过计算设计而非生物筛选的比例。目前这个数值不到 1%,而 OpenIO 希望把它变成行业新标杆。

具体能设计什么?

抗体:覆盖单链抗体、纳米抗体、复杂融合蛋白等多种格式,同时优化结合力、溶解度、稳定性和低免疫原性。

CAR-T:针对实体瘤“脱靶毒性”难题,设计能执行布尔逻辑的 CAR 回路——比如“抗原 A 存在且抗原 B 存在”时才激活,大幅降低误伤正常组织的风险。

合成细胞因子:IL-2、IL-12 这些细胞因子的抗肿瘤效果强,但毒性太大。AI 可以设计出“偏好性结合”的超级细胞因子,只激活肿瘤部位的免疫反应,避开全身毒性;或者设计成仅在肿瘤微环境的酸性 pH 下才激活的“智能因子”。

可编程递送载体:用生成式方法设计自组装蛋白纳米颗粒、病毒载体,精准靶向淋巴器官或肿瘤核心,绕过肝脏代谢,减少系统性副作用。

更重要的是,OpenIO 强调“闭环验证”:AI 设计完分子,自动指令机器人湿实验室合成、测试,再把结果反馈回模型迭代优化。该团队已经开发了“元生”(OriGene)多智能体系统,能够自主发现肝癌、结直肠癌的治疗靶点,证明了这条路径的可行性。

“第二我”:你的数字免疫孪生

如果医生手里有一个你的“数字分身”,能在计算机里预演各种治疗方案的效果,那该多好?

OpenIO的最终目标之一,就是构建“第二我”(Second Me)——高保真的数字免疫孪生体,这不是静态快照,而是动态可运行的仿真环境。

在患者接受临床试验或昂贵治疗前,他们的数字孪生可以经历成千上万次“虚拟临床试验”:微调免疫参数,模拟不同治疗下的肿瘤缩小情况、T 细胞耗竭风险、细胞因子风暴概率。这不仅能帮医生选方案,还能在新试验启动前,就筛选出最可能获益的患者群体,优化试验设计。

开源开放:不做技术孤岛

为了避免“重复造轮子”,也为了加速全球协作,OpenIO承诺全面开源——

  • 公开非专利的抗体序列,作为通用实验对照;

  • 发布针对 EGFR、HER2 等高价值肿瘤抗原的结合分子库,支持抗体偶联药物、双特异性抗体等新药研发;

  • 共享诊断抗体序列和标准化实验流程,让全球不同队列的数据可比、结果可重复。

该项目已经规划了清晰的三年路线图:

2026 年(第一阶段):建立 ImmunoBank 标准流程,上线首批联邦学习节点,开源免疫基础模型和免疫动力学世界模型,建立公开评测基准。

2027 年(第二阶段):发布 AI 设计的生物制剂,并在一种癌症(例如肝细胞癌)中开展首次完全由 AI 设计的生物制剂人体试验(需通过临床前验证和监管审批)。

2028年(第三阶段):实现“自进化实验室”——AI 智能体自主提出假说、设计 CAR-T/TCR-T 结构、指挥机器人完成实验;在部分临床试验中,为患者同步提供数字孪生模拟报告,辅助治疗决策;推动新型候选免疫疗法的计算设计/优化成为行业常态。

从“读”免疫到“写”免疫

OpenIO的愿景,是把癌症免疫治疗从一门“经验性学科”,转变为“理性工程学”。但这条路并不轻松:需要解决 AI 幻觉问题(区分真实发现和计算虚构)、统一多中心数据的异质性、克服人群代表性偏差(例如特定族裔、性别免疫差异),更要跨越药物研发、监管审批和临床验证的重重关卡。

文中提出的这些时间表是“愿景目标”而非确定性预言。但方向已经明确:当 AI 学会了免疫系统的运行逻辑,当数字孪生能预演治疗结局,当开源社区共同迭代算法和试剂,我们离“精准设计每一次免疫攻击”的时代,就更近了一步。

从阅读免疫组库的复杂密码,到书写下一代精准生物制剂的代码——这就是 OpenIO 想做的事。而这一切的起点,是一个开放框架,和全球科学家的共同参与。

https://www.cell.com/cancer-cell/abstract/S1535-6108(26)00289-8

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片