四个未解之谜

请记住四个问题。本文后续的所有机制、技术、肿瘤案例,本质上都是科学界尝试回答它们的过程。带着这些问题阅读,会发现每一个看似零碎的分子事件,其实都在向某个谜题靠近。

特异性之谜。 人类基因组里大约有 100 万个增强子,而功能性的启动子只有约 2 万个。一个增强子凭什么知道要去激活某个特定启动子,而不是路过的其他启动子?它怎样在密集的基因座里找到对的对象?

距离之谜。 增强子和它调控的启动子,在线性 DNA 上常常相隔几十 kb 到几个 Mb。这种距离意味着两段 DNA 真正接触的概率非常低、时间也很短。可基因表达却能稳定输出。增强子到底是必须亲自跑去接触启动子,还是可以远程指挥?

强度之谜。 同样是增强子,为什么少数被称为超级增强子的家伙能驱动定义细胞身份的关键基因(如干细胞的 OCT4、神经母细胞瘤的 MYCN),而其他普通增强子只能维持基础表达?这种从量变到质变的阈值效应,机制上是什么?

致癌之谜。 过去三十年的肿瘤研究主要聚焦在编码区突变(比如 TP53、KRAS)。但越来越多的证据表明,大量驱动突变其实发生在增强子和启动子等非编码调控元件上,有些癌症甚至完全没有典型的驱动突变,却被异常的转录程序绑架。为什么癌细胞会对 BRD4、CDK7 这类看似全局性的通用因子表现出高度依赖,一抑制就死?

下面开始铺垫机制,每一节都在悄悄回答这些谜题的某一面。

一、增强子的分子机制 1. 定义、典型增强子与超级增强子

增强子本身就是一段 DNA 序列(不是蛋白质,也不是 RNA),位于基因组非编码区,能在远距离上调启动子的转录活性,通常具有方向无关性。

打个比方,如果把基因组想象成一座城市,启动子就像每栋大楼门口的开关,决定楼里的灯(基因)亮不亮;增强子则像市里某处的调光控制器,可以远程拨动这个开关、调节亮度。控制器和大楼之间不需要相邻,可以隔着几条街甚至更远,只要城市的道路系统(也就是染色质的三维折叠)把它们带到一起就能起作用。控制器倒过来装也能用,这就是方向无关性的直观含义。

典型增强子(typical enhancer)长度约 200 到 2000 bp。bp 是碱基对(base pair),DNA 的最小长度单位,1 bp 即一对碱基。作为参照,人类基因组全长约 30 亿 bp,一个典型基因平均长度数万 bp,所以一个增强子相当于一个基因的几十分之一到几百分之一长。在染色质上它携带两个标志性的化学修饰:H3K4me1 和 H3K27ac,具体含义稍后解释。

超级增强子(super-enhancer, SE)是 Whitehead 研究所 Richard Young 实验室在 2013 年提出的新概念。它本质上不是单个增强子,而是一连串密集排列、被极强信号修饰的增强子簇。研究者用一种叫 ROSE(Rank Ordering of Super-Enhancers)的算法,把所有增强子按 H3K27ac 或 BRD4 等关键蛋白的结合强度排序,会发现绝大多数增强子信号平平,只有少数几百个增强子的信号陡峭飙升,这些信号金字塔顶端的就是 SE。SE 通常长度超过 8 到 20 kb(1 kb = 1000 bp),是普通增强子的 10 到 20 倍,蛋白结合密度也高出数量级。

更关键的是,SE 优先驱动定义细胞身份的关键基因:胚胎干细胞中的 OCT4、SOX2、NANOG;T 细胞急性淋巴细胞白血病(T-ALL)中的 RUNX1、TAL1;神经母细胞瘤中的 MYCN、PHOX2B、GATA3、HAND2。这种少数 SE 驱动决定命运的少数基因的格局,是细胞身份稳定性的基础,也是肿瘤研究里反复出现的关键线索,对应开篇的强度之谜与致癌之谜。

2. 染色质特征:活性增强子长什么样

要理解增强子如何工作,先要解释组蛋白修饰这个概念。DNA 在细胞核里并不是裸露的,它缠绕在一种叫核小体的蛋白颗粒上,核小体的核心是 8 个组蛋白(histone)分子。组蛋白的尾巴会被各种酶贴上化学标签(甲基、乙酰基等),不同的标签组合就像路标,告诉细胞内的转录机器:这段 DNA 是开放的还是关闭的、是激活的还是沉默的。这套标签系统就是组蛋白修饰。

命名法很简单。例如 H3K4me1,H3 表示组蛋白 H3,K4 表示这个蛋白的第 4 位赖氨酸,me1 表示在这个位置加了一个甲基。H3K27ac 就是 H3 的第 27 位赖氨酸上有一个乙酰基。

活性增强子的标志性指纹是 H3K4me1 与 H3K27ac 同时存在。

H3K4me1(组蛋白 H3 第 4 位赖氨酸单甲基化)由 MLL3(KMT2C)和 MLL4(KMT2D)这两个酶催化沉积,标记着这附近的 DNA 是一个增强子。仅有这个标记还不足以证明它正在工作,可能只是处于待命状态。

H3K27ac(H3 第 27 位赖氨酸乙酰化)由 CBP/p300 这两个组蛋白乙酰转移酶催化,这是增强子真正开机的标志。乙酰基中和了赖氨酸的正电荷,削弱了组蛋白与负电的 DNA 之间的吸引力,染色质变得松散,转录机器更容易接近。

活性增强子在结构上还有几个特点。中央有一段核小体缺失区(nucleosome-depleted region, NDR),好像把核小体挤开了一块空地,留给转录因子结合;两侧的核小体上则成对放置着 H3K4me1 标记;DNA 甲基化水平很低,被 TET 蛋白主动脱甲基;并且常富含 H2A.Z 和 H3.3 这两种组蛋白变体,它们使核小体更不稳定、更易被推开。

还有一类有趣的半激活增强子叫预备态增强子(poised enhancer),同时携带 H3K4me1(激活标签)和 H3K27me3(抑制标签,由 PRC2 复合物中的 EZH2 催化)。这种踩着刹车的油门状态,在干细胞和分化早期细胞中常见,意味着这个增强子已经被标记出来但还未启动,只待一个合适的信号就能被切换为激活或永久沉默。

最后值得一提的是一个最近被颠覆的认识:MLL3/MLL4 的酶活与其支架功能可以解耦。这两个酶虽然负责沉积 H3K4me1 标记,但对增强子的真正贡献,可能更多来自它们作为分子脚手架的角色,招募 p300、招募 RNA Pol II,而不是 H3K4me1 标记本身(Dorighi 等,Mol Cell 2017;Local-Chen 等 2023)。这提醒我们:修饰标签往往是结果而非原因,这是表观遗传学一个反复出现的教训。

3. eRNA

人们曾经以为增强子只是一段沉默的 DNA,被动地被结合、被激活。直到 GRO-seq 等技术出现,研究者发现增强子本身也在被转录。

增强子产生的 RNA 被称为增强子 RNA(enhancer RNA, eRNA),由 RNA Pol II 在增强子区域双向转录产生,通常缺乏 5′ 帽完整性、没有 poly(A) 尾、半衰期只有几分钟,产生后很快被核外泌体降解。乍一看像是转录噪音,但研究逐渐揭示 eRNA 远不只是副产物,而是承担着多个具体功能。

第一,稳定增强子与启动子之间的染色质环。eRNA 可以直接结合 cohesin 和 Mediator 这两个蛋白复合物,它们都是把增强子和启动子拉到一起的关键绳索。eRNA 像粘合剂一样让这个三维结构更稳定。

第二,释放暂停的 RNA Pol II。在很多基因的启动子下游 30 到 60 nt(nt 即核苷酸,RNA 的最小长度单位)处,RNA Pol II 会被暂时卡住,机制后面讲。eRNA 可以充当 NELF 这个暂停因子的诱饵 RNA,诱使 NELF 离开 Pol II,让 Pol II 重新跑起来。

第三,捕获并稳定转录因子。eRNA 可以增加 YY1(Yin Yang 1,一种广泛表达的锌指型转录因子蛋白)、BRD4(bromodomain-containing protein 4,含溴结构域蛋白 4,后面详述)等关键蛋白在调控元件上的停留时间。

第四,调控染色质修饰反馈环。eRNA 可激活 CBP 的乙酰转移酶活性,促进 H3K27ac 的沉积;同时抑制 PRC2 中 EZH2 的活性,阻止抑制性的 H3K27me3 沉积。eRNA 帮助增强子保持激活态。

第五,作为凝聚体的组分。eRNA 可以通过多价、弱相互作用,参与转录凝聚体的形成与维持。这一点在第 6 节深入讨论。

eRNA 的发现极大地拓展了我们对增强子的认知。它不是一段静止的 DNA 标签,而是一个主动产生 RNA 的、活跃的功能单元。

4. 转录因子与共激活因子的招募

增强子要发挥作用,必须招募一支工作团队。

先头部队是序列特异性转录因子(transcription factor, TF),一类能识别 DNA 上特定序列(像识别钥匙的锁眼)的蛋白质。每种 TF 有自己识别的序列偏好,这就解释了为什么不同细胞、不同状态下激活的增强子集合是不同的,因为不同的细胞表达不同的 TF。

TF 不是单打独斗,它们的活性区(activation domain)往往是一段内禀无序区(intrinsically disordered region, IDR)。IDR 是没有固定三维结构、灵活松散的蛋白质段,后面会反复出现,因为它是相分离机制的核心。

TF 招来的工人包括几个核心角色。

Mediator(中介复合物)是由约 26 个亚基组成的巨型蛋白复合物,分为 Head、Middle、Tail 和 Kinase 四个模块。TF 通过激活区直接结合 Mediator 的 Tail 模块(主要是 MED1、MED14、MED15 这几个亚基);Mediator 再向下游伸出手臂,联系 RNA Pol II 和其他通用转录因子。它是一个总承包商,把上游的 TF 信号翻译成下游转录机器能听懂的指令。

CBP/p300 是一对功能高度相似的组蛋白乙酰转移酶,负责催化 H3K27ac。它们既识别 TF、又给 TF 本身加上乙酰修饰,还把组蛋白尾巴改造得更开放。

BRD4 是一个明星蛋白分子。它有两个 bromodomain(简称 BD1、BD2),专门识别已经被乙酰化的赖氨酸,无论是组蛋白上的还是 TF 上的。所以 BRD4 像一个乙酰化雷达,一旦增强子被 H3K27ac 标记,BRD4 就被招来。BRD4 的 C 端还有一段 P-TEFb 互作结构域,可以把 P-TEFb(positive transcription elongation factor b,正性转录延伸因子 b,由 CDK9 激酶和 Cyclin T1 组成的蛋白复合物)拉到现场。P-TEFb 是负责启动 RNA Pol II 真正开始干活的钥匙,详见第二章关于启动子近端暂停。

把这一连串关系串起来:TF 识别增强子 DNA,招来 CBP/p300 把组蛋白和 TF 自己都乙酰化,BRD4 通过 bromodomain 锁定这些乙酰化标签,再把 P-TEFb 拉过来,P-TEFb 释放被卡住的 Pol II,转录开始。

此外,MLL4(KMT2D)和谱系决定 TF 是搭档关系。TF 把 MLL4 带到增强子,MLL4 沉积 H3K4me1/2 标签,同时招募 p300、Mediator、Pol II。各种共激活因子之间是相互勾连的网络,而不是依次到场的单兵。

5. 增强子与启动子的远距离对话

现在可以正面回答开篇的距离之谜:增强子和启动子相隔数十 kb 甚至几个 Mb,它们怎样建立联系?

Cohesin 与环挤出机制

想象 DNA 是一根长长的绳子。Cohesin 是一个环形蛋白复合物,由 SMC1、SMC3、RAD21、STAG1/2 几个亚基组成,形状真的就像一个戒指。Cohesin 由 NIPBL/MAU2 蛋白装载到 DNA 上,由 WAPL 蛋白卸下。它做的事可以这样想象:像吸管吸面条,用 ATP 提供能量,沿着染色质双向挤出一个 DNA 环。环越来越大,直到撞到某个路障才停下来。这个过程叫环挤出(loop extrusion)。

那么路障是什么?是 CTCF(CCCTC-binding factor)这个蛋白。CTCF 结合在 DNA 上特定的序列上,像沿途插着方向性的路标。Cohesin 沿 DNA 滑行时,只有遇到方向收敛(两个 CTCF 头对头)的两个位点才会被卡住。这一卡,就形成了一个稳定的染色质环。

由这种机制大量产生的染色质环集合,在 Hi-C 实验中表现为一个个自相互作用频率高的方块,被称为拓扑关联结构域(topologically associating domain, TAD)。TAD 内部的 DNA 段彼此频繁接触,而跨越 TAD 边界的接触则被强烈抑制。

这一机制对增强子与启动子对话的意义是什么? Cohesin 的环挤出过程会在 TAD 内部反复扫描,把原本相距数百 kb 的增强子和启动子拉到一起的概率大大提高。CTCF 设定的边界则像绝缘墙,保证增强子不会误激活另一个 TAD 里的基因。事实上即使只有一个 CTCF 位点,也足以阻止增强子的劫持(Hemming/Bernstein, Mol Cell 2024)。急性敲除 RAD21 或 NIPBL,远距离增强子驱动的转录会迅速衰减,这是 cohesin 环挤出机制因果性的有力证据。

这套机制的核心(cohesin 形成环 + CTCF 路障)已被 2019 年的单分子荧光实验直接观察证实(Davidson 等、Kim 等,Science 2019),目前是领域共识;不过挤出速率、cohesin 包绕 DNA 的具体拓扑形式等细节仍在精细化研究中。

下图示意整个过程:

打开网易新闻 查看精彩图片

图 1:Cohesin 环挤出机制示意 接触模型与通信模型

经典的接触模型(contact model)认为增强子必须与启动子物理接触才能起效,就像必须按下开关灯才会亮。但近年来活细胞单分子成像给出了让人困惑的数据:物理上的邻近与转录爆发并不严格同步。即使增强子和启动子已经被拉得很近,基因也不一定立刻表达;有时它们短暂分开,基因却继续表达。

这催生了通信模型(communication model)或 hub/凝聚体模型:增强子可能不需要持续物理接触启动子,而是通过形成局部的分子云(凝聚体),把转录所需的所有材料富集到一个区域,启动子只需进入这个云区附近即可被激活。

最新的整合模型(Mach 等 2025)给出了一个调和的答案:cohesin 环挤出制造稀少但延长的接触机会,转录因子凝聚体在这个机会窗口里捕获启动子,触发转录爆发。换句话说接触是必要的但不是持续的,凝聚体把短暂接触放大为有效信号。这正好对应开篇的距离之谜,答案不是近或远二选一,而是两种机制的协奏。

6. 相分离与转录凝聚体

接下来讲一个近七年来最革命性的概念。

什么是液–液相分离(liquid-liquid phase separation, LLPS)? 用一个家常的比方,沙拉酱里油和醋会分层,这就是相分离。在细胞内,某些蛋白质和 RNA 在合适浓度下也会自发凝聚成液滴,与周围的核浆界限分明,但内部分子仍能自由流动。这种液滴不是细胞器(没有膜),却能富集特定分子、加速反应,可以想象成没有围墙的厨房,把所有炊具和食材集中在一块小空间里。

Sabari、Boija、Cho 等(Cell 2018;Science 2018)的关键发现是 BRD4 和 MED1(Mediator 的核心亚基)的 IDR 可以在超级增强子上形成液滴状的转录凝聚体(transcriptional condensate),富集 RNA Pol II、P-TEFb 以及 TF 的激活区。

为什么 IDR 能驱动相分离? IDR 像一段段灵活的魔术贴,它们之间能形成大量弱的、多价的相互作用,包括 π–π 堆积、电荷–π 作用、芳香环疏水互作。任何一对相互作用都很弱、很短暂,但当几百几千个这样的弱相互作用同时发生,整体效果就足以把这些分子粘成一团液滴。

RNA Pol II 的 C 端结构域(CTD)本身就是一段经典的 IDR,人类 RNA Pol II 的 CTD 含有 52 个 YSPTSPS 七肽重复。这段 IDR 的 Ser5 到 Ser2 磷酸化梯度引导 Pol II 从启动子凝聚体迁移到 mRNA 加工凝聚体,这是一个分子在不同液滴间换工位的精妙过程。

BRD4 的故事更精彩。它有长短两种异构体(BRD4L 和 BRD4S),两者形成不同性质的凝聚体(Han 等,Nat Struct Mol Biol 2020)。BRD4 通过双 bromodomain 锚定乙酰化的 H3K27ac,把凝聚体牢牢绑定在 SE 上。

这个模型完美解释了多个观察现象。SE 比普通增强子强这么多,是因为 SE 上 BRD4/MED1 浓度足够高,能够触发相分离的临界浓度阈值,形成凝聚体;普通增强子达不到这个阈值,只能进行低强度的招募。这正是开篇强度之谜的答案。SE 表现出阈值效应、一旦破坏就崩塌,是因为相分离本身就是非线性的,浓度刚过阈值就突然成相,刚过不了就完全不成相。BET 抑制剂(JQ1)对癌细胞如此致命,是因为它把 BRD4 从乙酰化染色质上踢下来,凝聚体随即解体,SE 驱动的致癌程序整个崩溃。

凝聚体模型是理解癌症转录依赖性(transcriptional addiction)的关键钥匙,这一点在第四章深入展开。

7. 增强子的鉴定与功能验证

讲到这里已经理解了增强子的工作原理,现在来看实验上怎么找到它们、怎么验证它们的功能。

鉴定活性增强子的标准做法是 H3K27ac 的 ChIP-seq,在全基因组范围扫描这一活性标签的分布,然后用 ROSE 算法把信号排序,挑出超级增强子。H3K4me1 ChIP-seq 帮助区分预备态与活性态,ATAC-seq 或 DNase-seq 检测染色质开放区域(暗示有蛋白结合)。

eRNA 的检测则需要专门捕捉短半衰期、不稳定 RNA 的技术,如 GRO-seq(global run-on sequencing)、PRO-seq(precision run-on sequencing)、CAGE(cap analysis gene expression)。这些技术能看到正在被 RNA Pol II 转录的位点,是判断增强子是否活跃的金标准之一。

TF 与共激活因子的占据可以用各自的 ChIP-seq 来定位,BRD4、MED1、p300、各种主导 TF 的 ChIP-seq 既鉴定增强子位置,也用于 SE 排序。

三维基因组学是最近的突破方向。Hi-C 给出全局拓扑图;ChIA-PET 和 HiChIP(尤其 H3K27ac HiChIP)富集特定蛋白介导的染色质环;Capture Hi-C 对感兴趣的启动子做高分辨率放大调研;Micro-C 把分辨率推到约 200 bp。这些方法让我们能直接看见增强子和启动子的三维拥抱。最近的工具如 HiC-DC+ 还能做差异接触分析。

RNA 邻近捕获技术从 DNA-DNA 接触扩展到 RNA 介导的接触。Hi-C 系列回答的是哪两段 DNA 在空间上邻近,但忽视了 RNA 在染色质组织中的角色。前面讲过 eRNA、lncRNA 都参与稳定增强子–启动子环、参与凝聚体形成。要直接捕获 RNA 介导的空间互作,需要一类全新的技术。

RIC-seq(RNA In situ Conformation sequencing,RNA 原位构象测序)由薛愿超实验室在 2020 年的 Nature 论文中首次报道。原理是在细胞核内原位连接两条空间上邻近的 RNA 分子,然后建库测序。它与 Hi-C 的关键区别是:Hi-C 捕捉 DNA-DNA 接触,RIC-seq 捕捉 RNA-RNA 在原位的空间邻近。这让研究者第一次能直接看见某个 eRNA 与它调控的靶基因 mRNA 是不是真的在三维空间里相遇。在肿瘤研究中,RIC-seq 已被用来揭示癌症中 eRNA / lncRNA 介导的异常染色质互作,以及 eRNA-mRNA 互作如何影响转录爆发。

GRID-seq(Global RNA Interactions with DNA by deep sequencing)捕捉 RNA 与 DNA 的全局互作图谱,反向告诉我们某个 RNA 占据了基因组的哪些位置。RADICL-seq、ChAR-seq、MARGI 是同类原理的变体,各自有不同的连接策略与分辨率特征,共同构成 RNA-染色质互作组工具箱。

这些 RNA 邻近捕获技术之所以重要,是因为它们提供了 Hi-C 无法给出的关键信息:某个非编码 RNA 是不是真的亲临现场参与了一对增强子-启动子的功能性偶联。这对验证 eRNA 功能假说、研究 lncRNA 介导的致癌机制(如 HOTAIR、CCAT1 等)是不可替代的工具。

功能验证则需要扰动实验。CRISPRi-FlowFISH(用 dCas9-KRAB 沉默候选增强子,然后用 FISH 检测下游基因表达变化)、CRISPR knockout(直接删除增强子序列)、MPRA(massively parallel reporter assay,大规模并行报告基因实验)等。仅有共定位的相关性不够,功能性的因果证据才是定论。

二、启动子的分子机制 1. 结构与核心元件

启动子和增强子一样本身就是一段 DNA 序列。如果增强子是远程调光器,启动子就是大楼门口的开关,直接决定基因从哪里开始转录、转录多频繁。

启动子按距离转录起始位点(transcription start site, TSS)的远近,可分为三层。核心启动子(core promoter)位于 TSS 周围约 ±40 bp 的区域,负责招募 RNA Pol II 与通用转录因子,是转录起始的反应中心。近端启动子(proximal promoter)位于 TSS 上游约 −250 bp 内,常含有特异 TF 的结合位点。远端调控元件包括增强子、绝缘子、沉默子等,从功能上又回到了增强子的话题。

核心启动子内部有一些标志性序列元件,像盖楼时埋的地基榫卯,标识开关的位置。

TATA box,共识序列 TATAWAAR,位于 −25/−31 区域,由 TBP(TATA-binding protein,TATA 结合蛋白)识别。约 10 到 20% 的人类启动子有 TATA box,常见于诱导型、组织特异型基因。

Inr(initiator,起始元件)共识序列 YYANWYY,A 在 +1(也就是 TSS 上)。由 TFIID 复合物中的 TAF1/TAF2 亚基识别,可以独立启动 PIC,也可与 TATA 协同。

DPE(downstream promoter element)共识序列 RGWYV,位于 +28/+32。它与 Inr 严格协同(距离不能变),常见于无 TATA 的果蝇启动子。

MTE、BRE、TCT 等是其他较少见的核心元件,各有专门的识别因子。

CpG island(CpG 岛)约覆盖 60 到 70% 的人类启动子。它们是富含 CG 二核苷酸的区段,通常没有 TATA box,但富含 GC box(被 Sp1 等 TF 识别),并且呈现双向转录特性。最近还发现一种叫 CGCG element 的 CpG 岛核心元件(共识 TCTCGCGAGA),可能是 CGI 启动子的方向性激活因子。

2. PIC 组装

前起始复合物(pre-initiation complex, PIC)是 RNA Pol II 启动转录前必须组装的多组分机器。让我把这场组装过程用画面化的方式描述出来。

想象一段 DNA 上有个 TATA box 等待被识别。组装开始。

第一位到场的是 TFIID,一个由 TBP 加 13 个 TAF 蛋白组成的庞大复合物。TBP 像一只手以反常的方式弯折 DNA,不让 DNA 进入自己的凹槽,而是骑跨在 DNA 上把它弯曲约 90 度。这个戏剧性的弯折是后续一切组装的几何基础。TFIID 不只识别 TATA,也通过 TAF 亚基识别 Inr、DPE、MTE。

第二位到场的是 TFIIA,工作很简单:稳定 TBP 与 DNA 这个易碎的弯折结构,防止它在后续步骤里散架。

接着 TFIIB 上场扮演桥梁工,一头接 TBP 一头接即将到来的 RNA Pol II,确定 Pol II 的方向(让它面向下游而不是上游)。

RNA Pol II 与 TFIIF 一起进场,TFIIF 的作用是抓稳 Pol II,让它正确就位在弯折的 DNA 上。

TFIIE 加入,招呼下一位嘉宾。

TFIIH 是最后一位也是最忙的玩家,包含两个关键活性。一个是 XPB 解旋酶,消耗 ATP 强行把 DNA 双链拉开约 11 到 13 bp,形成所谓的转录泡(transcription bubble),让 Pol II 接触到模板链。另一个是 CDK7 激酶(也叫 CAK 模块),磷酸化 Pol II CTD 的 Ser5 残基,这个磷酸化是 Pol II 离开启动子、开始向下游延伸的发车信号。

到此 PIC 组装完成,但故事还没结束。Mediator 复合物作为总管穿梭在整个组装过程中,通过 Tail 模块接收上游 TF 的激活信号,通过 Head 和 Middle 模块联系 PIC 各组件,把上游决定翻译成下游行动。Mediator 还有一个可拆卸的 Kinase 模块(包含 CDK8/19、CCNC、MED12/13),能可逆地阻止 Mediator 与 PIC 结合,这是一个微妙的调控开关,在肿瘤治疗中后面会再次出现。

整个 PIC 组装过程是 Patrick Cramer、Steve Hahn、Eva Nogales 等结构生物学家通过冷冻电镜近十年解析出来的。冷冻电镜让我们第一次看见了这场分子之舞。

3. 启动子与增强子的兼容性

回到开篇的特异性之谜:增强子怎么知道该激活哪个启动子?研究提出几个层次的机制。

生化兼容性方面,不同的启动子对不同的共激活因子(p300 vs Mediator vs MLL)有不同偏好。果蝇实验发现 TATA-containing 启动子和 DPE-containing 启动子分别响应不同类型的增强子,哺乳动物中也存在类似的启动子-增强子类型匹配。

空间架构方面,TAD 内部接触概率高、跨 TAD 概率低,这是几何学层面的过滤器。

染色质状态匹配方面,带 H3K27ac 的活性增强子优先与 CpG 岛启动子配对;被 Polycomb 沉默的启动子对增强子无响应。

凝聚体兼容性方面,同一相分离 hub 内的 IDR 必须性格相投(化学相容性)才能共存,这是生物物理层面的过滤。

最新模型支持序列编码的特异性与三维兼容性互补,它们不是非此即彼而是协同工作。

4. 启动子近端暂停

这里有一个反直觉的事实:RNA Pol II 启动后并不会一路狂奔,而是会在转录起始位点下游 30 到 60 nt 处被卡住,形成所谓的启动子近端暂停(promoter-proximal pausing)。

为什么细胞要让 Pol II 暂停? 进化生物学的答案是这给了细胞一个最后的速率调控点:已经投入资源启动转录,但要不要真正生产 mRNA,还可以临场决定。

让 Pol II 暂停的关键因子有两个。NELF(negative elongation factor,负性延伸因子)是一个由 NELF-A/B/C/E 组成的四聚体蛋白复合物,把暂停态稳定下来,NELF-E 通过一个碱性螺旋结构接触下游 DNA,把 Pol II 钉在原地。DSIF 由 SPT4 和 SPT5 组成,与 NELF 协同稳定暂停态。Pol II 下游的第一个核小体(称为 +1 核小体)也充当物理屏障。

释放暂停的钥匙是 P-TEFb。P-TEFb 经 BRD4 或 SEC(super elongation complex,超级延伸复合物,含 AFF1/AFF4、ELL、ENL、AF9 的蛋白复合物)招募到基因座,做三件事。第一,磷酸化 Pol II CTD 的 Ser2,这是开始真正延伸的信号(对照 Ser5 是启动子逃逸信号)。第二,磷酸化 DSIF 的 SPT5 CTR 结构域,把 DSIF 从负性因子改造成正性延伸因子,同一个分子在被改造后角色翻转。第三,磷酸化 NELF-E 使 NELF 解离,释放 Pol II。经过这三步 Pol II 进入生产性延伸态,真正开始合成 mRNA。

P-TEFb 自身也受调控。大部分 P-TEFb 被一个叫 7SK snRNP 的核糖核蛋白复合物(由 7SK RNA 加 HEXIM1/2、LARP7、MePCE 几个蛋白组成)隔离起来,处于待命状态。当细胞需要转录时 7SK 释放 P-TEFb,后者被 BRD4 或 SEC 捕获到基因座。这套层层调控让 P-TEFb 成为一个精密的流量阀。

值得一提的是 NELF 仅存在于后生动物。这意味着 CDK9 抑制剂的效应在不同物种、甚至不同细胞背景下有别。NELF 阳性的细胞在 CDK9 抑制下整体关闭转录,而 NELF 缺失的细胞继续生成非生产性转录(Aoi 等,Nat Commun 2023)。

5. 启动子的表观遗传调控

CpG island 甲基化是肿瘤中的一个核心机制。正常情况下 CGI 启动子保持低甲基化,在肿瘤中 DNMT3A/3B(DNA 甲基转移酶)通过 PWWP 结构域被招募到 H3K36me3 标记的区域,在那里发动新发(de novo)甲基化。被甲基化的 CGI 启动子招募 MBD 蛋白家族,后者再招募 HDAC 和 PRC2,导致基因永久沉默。

这就是为什么很多抑癌基因(tumor suppressor gene, TSG)在肿瘤中是通过启动子高甲基化沉默的,而不是序列突变。MLH1 是错配修复基因,高甲基化导致 MSI-H(微卫星不稳定)结肠癌、子宫内膜癌。CDKN2A/p16 是细胞周期抑制因子,高甲基化让肿瘤跳过衰老屏障。BRCA1 是同源重组修复基因,高甲基化造成同源重组缺陷型乳腺癌。MGMT 是 DNA 修复酶,高甲基化使胶质瘤对替莫唑胺敏感。VHL 是抑癌基因,高甲基化是肾癌发生的早期事件。

启动子的活性标签是 H3K4me3(注意与增强子的 H3K4me1 区别:三甲基 vs 单甲基),由 SET1A/B 与 MLL1/MLL2 催化。

发育基因常处于一种叫双价(bivalent)的状态,同时携带激活的 H3K4me3 和抑制的 H3K27me3。这就像同时踩着油门和刹车,只待分化信号一来就快速被切换为完全激活或完全沉默。这个机制让胚胎干细胞拥有发育多能性。

6. 启动子的转录与双向性

回到一个根本问题:启动子本身是否被转录? 答案是肯定的。启动子就是 RNA Pol II 转录起始的位置。事实上启动子的转录在结构上与增强子的转录高度对称。

经典视角下我们以为启动子只产生 mRNA,但 Andersson 等(Nature 2014)的研究改变了这个认识。在启动子的中心 NDR 上,RNA Pol II 实际上是双向起始的。沿基因方向产生 mRNA,反向则产生一类叫 PROMPT(promoter upstream transcript,启动子上游转录本)或 uaRNA(upstream antisense RNA,上游反义 RNA)的转录本,通常被外泌体快速降解。

启动子转录与增强子转录的初始事件几乎相同,真正的差别在下游加工。沿基因方向的 RNA 携带剪接位点和 poly(A) 信号,被剪接和加尾保护、稳定输出为 mRNA;反方向的 PROMPT 缺乏这些信号,与 eRNA 一样命短,被外泌体清除。

约 11% 的人类基因头对头分布在 1 kb 以内的共享启动子区,常常是 CGI 启动子,这种结构称为双向启动子(bidirectional promoter),其两端都驱动稳定 mRNA。

这一对称性正是 Andersson 模型把启动子与增强子统一起来的基础:所有顺式调控元件本质上都是双向转录起点,差别只在于产物的稳定性和功能性。增强子的 eRNA 与启动子的 PROMPT 是同源现象,只是命名不同。

三、增强子-启动子相互作用的整合理解 1. 接触模型与通信模型再讨论

经典接触模型(Bulger & Groudine, 2011)主张增强子必须与启动子物理接触才能激活转录,证据是 Hi-C 和 3C 实验显示活性 E-P 对在三维空间中频繁接触。

修正后出现了两种模型。Hub/瞬时模型认为 E 与 P 的接触是短时多元的,不是稳定的二者牵手,多个增强子和启动子可能形成一个小社区彼此动态接触。凝聚体/远程通信模型认为 E 不需要持续接触 P,而是通过形成凝聚体把转录材料富集起来,P 进入凝聚体附近即被激活。

最新的整合模型(Mach 等 2024,基于活细胞成像)认为 cohesin 环挤出制造罕见但寿命较长的接触机会,凝聚体在这个机会窗口里捕获两端,触发转录爆发(burst)。增强子主要影响 burst frequency(爆发频率)而不是 burst size(爆发幅度),让基因更频繁地开火,但每次开火释放的 mRNA 量相对恒定。

2. 特异性如何决定

把上面所有讨论合成一个分层模型。

第一层是空间过滤:cohesin 环挤出在 TAD 内部扫描,把 E 和 P 的接触概率从基线提升至显著水平,TAD 边界 CTCF 限制范围。第二层是序列过滤:E 上 TF 与 P 上 GTF/Pol II 的兼容性,比如 TATA 启动子和 DPE 启动子分别响应不同增强子。第三层是染色质状态过滤:核小体定位、H3K27ac、eRNA 的存在与否决定哪些潜在接触对能产生功能信号。第四层是凝聚体过滤:IDR 兼容性决定 E 和 P 能否共存于同一相分离 hub。

每一层都是过滤器,层层下来最终形成的特异 E-P 配对就是稳定的转录信号。

3. eRNA 在 E-P 互作中的作用

如前所述,eRNA 既稳定 cohesin/Mediator 介导的染色质环,也参与凝聚体的多价相互作用。它把序列特异性转化为生物物理协调性,是连接基因组学层面与生物物理层面的重要桥梁。

4. TF 凝聚体介导的 E-P 通信

Mediator-SE-Pol II 凝聚体可以被理解为 E 和 P 的会面舱。E 端 TF 通过 IDR 招募 BRD4/MED1,引发凝聚体形成;P 端 Pol II 通过 CTD(本身是 IDR)进入同一相;结果是 E 和 P 即使没有持续物理接触,也能通过共享同一个凝聚体而功能耦合。

这个模型解释了 SE 的鲁棒性、阈值效应,也解释了为什么 BET、CDK7 抑制能过敏感地崩溃癌细胞 SE 程序,因为它们瓦解的是这个凝聚体本身。

5. 染色质重塑复合物

要让增强子和启动子被识别,首先它们必须暴露,也就是核小体得让开。这个工作由染色质重塑复合物(chromatin remodelers)完成,它们是利用 ATP 推动核小体的多亚基蛋白复合物。

SWI/SNF(也叫 BAF)家族最为重要,有三个亚型。cBAF 含 ARID1A/1B、SMARCA4/2(BRG1/BRM)、SMARCB1、DPF 等。PBAF 含 ARID2、PBRM1、BRD7、PHF10 等。ncBAF/GBAF 含 BRD9、GLTSCR1 等。BAF 的主要功能是维持谱系特异性增强子的可及性和 H3K27ac。BAF 缺失会让 H3K27ac 全面降低,导致谱系增强子塌陷,这一点在肿瘤中尤其重要。

ISWI、CHD、INO80 家族辅助完成核小体的精细定位,如 +1 核小体的精确放置。

NuRD/CoREST 复合物则反过来,含 HDAC1/2 和 LSD1 介导基因沉默。一个有趣的现象是 BRD4 在某些情况下可以与 LSD1/NuRD 联合,形成抑制性的反向 SE,这是乳腺癌耐药的一个机制。

四、增强子/启动子在肿瘤中的作用机制

终于可以正面回答开篇的致癌之谜:为什么调控元件异常会驱动肿瘤? 为什么癌细胞表现出转录依赖? 癌细胞通过多种途径绑架增强子/启动子系统,让它们持续输出错误的转录程序,下面分门别类讲解。

1. 致癌增强子劫持

正常情况下某个强增强子驱动它附近的某个基因。如果发生染色体重排(易位、缺失、倒位、扩增),这个增强子可能被搬到另一个原本不该被它调控的基因(通常是致癌基因)旁边,这就叫 enhancer hijacking(增强子劫持)。结果是致癌基因被错误地强力激活。

T-ALL 中 TAL1 的异常激活

TAL1 本来是在造血干细胞和红系前体中表达的转录因子,在淋巴祖细胞中应该是关闭的。但在 T 细胞急性淋巴细胞白血病中 TAL1 被异常激活,这是 T-ALL 的一个标志性事件。

激活 TAL1 的机制至少有三种,每种都涉及一个不同形式的增强子操纵。SIL-TAL1 缺失约占 30% 病例,约 90 kb 的缺失把 TAL1 直接置于上游 SIL 基因的普遍激活调控元件下。TCR-TAL1 易位约占 10%,TCR(T 细胞受体)位点的强增强子被劫持到 TAL1 旁。MuTE 突变(Mutation of TAL1 Enhancer)约占 5% 病例,这是最精彩的案例:在 TAL1 上游约 7.5 kb 处仅插入 2 个核苷酸(GT),就创造出一个全新的 MYB 转录因子结合位点。这个位点招募 MYB-CBP-TAL1-GATA3-RUNX1-LMO1/2 复合物,形成一个 de novo 超级增强子,驱动 TAL1 高表达(Mansour 等 Science 2014)。两个核苷酸的插入引发一个超级增强子的诞生,再驱动整个 T-ALL 的转录程序,这是非编码区调控元件突变可以驱动肿瘤最经典的证据之一。

值得一提的是 TAL1 复合体进一步异常激活了进化保守的 MYCN 远端增强子(enhMYCN),诱导 MYCN 的转录,使 T-ALL 对甲羟戊酸(mevalonate)通路抑制剂敏感(Leukemia 2023)。这是个连锁反应的精彩例子。

MYC 增强子劫持的多种形式

MYC 是细胞增殖和代谢的主开关,几乎在所有癌症中都有异常表达。它的增强子被劫持有多种典型形式。

Burkitt 淋巴瘤中,t(8;14)(q24;q32) 易位把 MYC 重排到 IGH(免疫球蛋白重链)位点的内含子或 3′ 调控区,使 MYC 在 B 细胞的体细胞超突变(SHM)和类别转换重组(CSR)期间被 IgH 3′ 调控区持续激活,见于 85% 的 BL 病例。机制基础是 AID(activation-induced cytidine deaminase,激活诱导脱氨酶)介导的 DNA 双链断裂。

多发性骨髓瘤中近 50% 的患者存在 MYC 重排,把 MYC 置于 IGH/IGL/IGK 或非 Ig 超级增强子(NSMCE2、TXNDC5、FAM46C 等)旁。

急性髓细胞白血病(AML)中,8q24 距离 MYC 1.7 Mb 处有一个由 9 个增强子模块组成的 BENC(Blood ENhancer Cluster,血液增强子簇)。AML 中常见 BENC 的焦点扩增,把它转化为 MYC 的超级增强子(Bahr/von Paleske et al., Nature 2018)。

前列腺癌中 8q24 基因荒漠区(gene desert)含 GWAS 风险变异(rs6983267、rs72725854),这些变异位于雄激素响应增强子内,经 FoxA1/AR/SPDEF 介导加强与 MYC、PVT1、PCAT1 的环式接触。

髓母细胞瘤中的 GFI1/GFI1B 劫持

Northcott/Pfister 等(Nature 2014)发现 Group 3/4 髓母细胞瘤中 6.6% 病例存在 9q34 焦点重排,缺失/倒位/复制把 GFI1 或 GFI1B 编码区并置于强 SE 旁,产生互斥性 GFI1 或 GFI1B 高表达,与 MYC 协同驱动肿瘤。缺失获得功能是这个案例的关键悖论:通常我们认为缺失意味着丢失,但这里缺失把基因带到了不该去的增强子旁。

更广泛的结构变异与 ecDNA 介导的劫持

HiChIP 和 H3K27ac HAPI 算法系统识别 34 种癌细胞系中的 enhancer hijacking,涉及 MYC、CCND1、ETV1、CRKL、ID4 等。

特别值得提及的是 ecDNA(extrachromosomal DNA,染色体外环状 DNA)。这种环状 DNA 上常携带致癌基因和它们的增强子,多条 ecDNA 之间还能彼此交换增强子(MYC-ERBB2 嵌合 ecDNA),形成一种调控元件的黑市(Wu 等 Nature 2019)。由于 ecDNA 没有 CTCF 边界,它的增强子-基因互作几乎不受拓扑限制,可以创建超级活跃的 hub。

2. 超级增强子驱动癌细胞身份

癌细胞和正常细胞一样,身份由 SE 驱动的核心调控环路(CRC)决定,但癌细胞往往篡夺了这个环路。

多发性骨髓瘤中 IgH-MYC 易位把 IgH 3′ SE 嫁接到 MYC 上,SE 还驱动 BCL-xL、IRF4 等的表达。BRD4/Mediator 在这些 SE 上密度极高,JQ1 能引发 MYC 一过性的快速抑制(Lovén/Bradner Cell 2013),这是超级增强子概念的奠基性研究之一。

小细胞肺癌(SCLC)基于谱系定义 TF 分为 4 个亚型。SCLC-A 由 ASCL1 驱动,SCLC-N 由 NEUROD1 驱动,SCLC-P 由 POU2F3 驱动,SCLC-Y/I 由 YAP1 或炎症型驱动。每一亚型由各自 TF 的 SE 驱动,核心调控环路相互正反馈。MYC 高表达常驱动从 SCLC-A 到 SCLC-N 的转化。

DLBCL(弥漫大 B 细胞淋巴瘤)中的 BCL6 SE:GCB-DLBCL 中 BCL6 被强 SE 驱动,BCL6 招募 SMRT/NCoR-HDAC3 抑制分化基因,把生发中心(GC)的暂停状态变成永久状态。EZH2 Y641 突变(22% GCB-DLBCL,7% FL)使 PRC2 的 H3K27me3 沉积获得 Tyr/Phe switch 功能,把暂时性沉默升级为永久性沉默,锁定 GC 状态驱动淋巴瘤化(Béguelin/Melnick Cancer Cell 2013)。

3. 启动子区甲基化异常

如前所述 CpG 岛高甲基化沉默抑癌基因(MLH1、CDKN2A、BRCA1、MGMT、VHL 等)。CIMP(CpG island methylator phenotype)表型常关联 BRAF V600E、IDH1/2 突变(2-HG 抑制 TET 脱甲基酶);MAFG/BACH1/CHD8/DNMT3B 复合体把 BRAF 突变信号串联到 MLH1 沉默。

相反,全基因组低甲基化常发生在重复元件、增强子、Polycomb 区域。肿瘤中可解锁原本沉默的增强子,激活致癌基因表达,并导致基因组不稳定。

4. 转录因子的异常激活与转录放大

MYCN 在神经母细胞瘤:2p24 的 MYCN 扩增是高危神经母细胞瘤的标志。MYCN 与 SE 驱动的 PHOX2B、HAND2、ISL1、GATA3、TBX2 形成 adrenergic-CRC,作为转录放大器全局放大基因表达。视黄酸治疗能在另一个 RA-CRC 中重塑 SE 景观,把 PHOX2B/GATA3 SE 解构、激活 MEIS1/SOX4(Durbin 等,Nat Genet 2018)。

SOX2、OCT4 等多潜性 TF 在 SE 上自我反馈,癌干细胞依赖类似机制。

5. 染色质重塑因子突变

SWI/SNF(BAF)亚基突变累计存在于约 20% 的人类肿瘤中。

SMARCB1 双等位失活导致恶性横纹肌样瘤(MRT)、ATRT,这是典型的超低突变率单基因癌症。SMARCA4(BRG1)失活导致小细胞肺癌、SCCOHT(卵巢小细胞癌的去分化型)、GIST;在 NSCLC 中,SMARCA4-mutant 肿瘤的增强子图谱缺陷致免疫冷表型,免疫治疗响应差。ARID1A 突变常见于卵巢透明细胞癌(>50%)、子宫内膜样癌、胃癌、肝细胞癌;ARID1B 部分代偿,双失活致命,这是合成致死靶点。PBRM1 突变多见于肾透明细胞癌(40%)。BRD9(ncBAF)在滑膜肉瘤中,SS18-SSX1 融合保持 ncBAF 功能性。

机制层面 BAF 缺失减少增强子可及性、降低 H3K27ac、促进 Polycomb 沉默,导致谱系增强子塌陷,异常分化或重编程。

6. 表观调控因子的异常突变

EZH2 Y641X(Y646X)GOF 突变(DLBCL 22%、FL 7%)减少单/二甲基化但增加三甲基化活性,导致 H3K27me3 蓄积。KMT2D(MLL4)共突变进一步增强 GC 状态停滞,这是 tazemetostat 的分子靶点。

DOT1L 在 MLL 重排白血病中:MLL-AF4/AF9/ENL 等融合蛋白通过 SEC 招募 DOT1L 至原本不甲基化的 MLL 靶基因(HOXA、MEIS1),异位 H3K79me2/3 触发肿瘤维持转录。这些 H3K79me 标记还定义了 MLL-r 白血病中一类新型增强子(KEEs)。EPZ-5676(pinometostat)对此有针对性。

EP300/CBP 突变(DLBCL 约 30%,FL 约 40%,SCLC,膀胱癌)多为单等位 LOF 截短或 HAT 域 missense,导致 BCL6 靶基因和 H3K27ac 减少,免疫信号下降;HDAC3 抑制剂可作为合成致死。

KMT2D/MLL4 与 KMT2C/MLL3 突变(FL/DLBCL/膀胱、肺癌)使 H3K4me1 与协同 p300 招募下降,enhancer commissioning(增强子启用)缺陷。

NSD1/NSD2/MMSET(H3K36me2)、KDM6A/UTX(H3K27me3 demethylase)也常突变。

7. eRNA 在肿瘤中的作用

BL 细胞中 IGH 区 AL928768.3 eRNA 调节 MYC 表达、影响化疗敏感性。eRNA 如 PSA-eRNA、CCAT1-eRNA 在前列腺癌、结直肠癌中促进 AR/MYC 靶基因转录。总体上 eRNA 可作为活跃癌症增强子的生物标志,也是潜在的 ASO/siRNA 治疗靶点。

8. 三维基因组重构

癌症不只改变了 DNA 序列,还改变了 DNA 的三维折叠方式,这是肿瘤研究中最迷人的领域之一。

IDH 突变胶质瘤中,IDH1/2 GOF 突变催化产生 2-HG(2-羟基戊二酸),抑制 TET 和 KDM,导致 G-CIMP(高甲基化表型)。CTCF 结合位点的甲基化破坏 PDGFRA TAD 边界,使其外部增强子激活 PDGFRA(Flavahan/Bernstein Nature 2016)。这是 TAD 边界破坏致癌的经典案例。

SDH-deficient GIST 中,SDH(琥珀酸脱氢酶)缺失导致琥珀酸蓄积,抑制 TET,造成全基因组高甲基化。FGF3/FGF4 与 ANO1 之间的 CTCF 绝缘子甲基化使 ANO1 SE 跨边界激活 FGF4(Flavahan 等 Nature 2019)。该 PDX 模型对 FGFR 加 KIT 联合抑制剂敏感。

染色质易位与 ecDNA 重排创造 neo-TAD/neo-loop。ecDNA 因缺少 CTCF 边界形成超活跃 hub,MYC/EGFR 在其上以 SE 嫁接形式被多重激活。

9. 转录凝聚体在肿瘤中的作用

最后讲一个最前沿的肿瘤机制:致癌融合蛋白形成异常凝聚体。

尤文肉瘤的 EWS-FLI1:t(11;22) 易位把 EWS 蛋白的 SYGQ-rich LCD(low complexity domain,低复杂度结构域)与 FLI1 的 DNA 结合域融合。EWS-FLI1 在 GGAA 微卫星(尤其 ≥10× GGAA 重复)上以多体形式结合,LCD 介导 LLPS 形成异常的转录凝聚体,招募 BAF、Mediator、Pol II,创建 de novo enhancer(如 NR0B1 启动子区 25× GGAA 重复处)。这些异常增强子驱动 SOX2、IGF1R、ID2、NKX2-2 等致癌程序。最新研究还提示 EWS-FLI1 加速凝聚体老化为纤维状(condensate aging),为 LLPS 解构剂提供潜在靶点。

白血病的 NUP98 fusion:NUP98 N 端的 FG-repeats LCD 与 HOXA9/NSD1/KDM5A/PRRX1/PHF23/LNP1 等融合。FG repeats 与 DNA 结合域共同驱动 LLPS(同型与异型互作),在 HOX cluster 形成核小体凝聚体,招募 CRM1、MLL1/menin、CBP/p300,触发 HOX、MEIS1 等异常转录。凝聚体重组 3D 基因组,产生新染色质环与 TAD 重排(Ahn 等 Nature 2021;Terlecki-Zaniewicz 等 Nat Struct Mol Biol 2021;Cell Rep 2023)。

其他融合驱动的凝聚体包括 SS18-SSX(滑膜肉瘤,通过 BAF 重塑)、BCR-ABL、MLL-fusions、TAF15/FUS-CHOP(粘液样脂肪肉瘤)等,都涉及 IDR 介导的异常凝聚体。

这一系列发现的核心意义在于揭示了致癌融合蛋白的物理本质。很多融合蛋白获得功能不是因为它们获得了新的酶活,而是因为 IDR 让它们能形成新的凝聚体,把转录机器异位富集到不该激活的基因座。这从根本上改变了我们对癌基因的理解,癌症某种程度上是生物物理学的疾病。

五、靶向增强子/启动子的肿瘤治疗策略

理解了致病机制,治疗策略就有了方向。靶向转录依赖性已成为肿瘤治疗的新范式。

1. BET 抑制剂

JQ1 是首个 BET BD1/BD2 双竞争性拮抗剂(Filippakopoulos 等 Nature 2010),直接坐进 BRD4 的乙酰赖氨酸识别口袋,使 BRD4 从染色质上脱离。在 NUT 中线癌、MM、AML、Burkitt 中显著抑制 MYC,但药代动力学差,主要是科研工具。

临床推进的化合物包括 OTX015 / birabresib(MK-8628),可口服,Phase Ib 在 AML/ALL 显示活性(NCT01713582),多项实体瘤(GBM、NMC)在试验中。I-BET762(GSK525762)、I-BET151 也在进展中。BD2-选择性抑制剂 ABBV-744 减少血液系统毒性。BET PROTAC(dBET6、ARV-825 等)不只阻断,而是降解 BRD4,效果更深。

主要瓶颈包括单药效力有限、谱系性骨髓抑制、获得性耐药(LSD1/NuRD 重塑、WNT 反馈)。

2. CDK7 / CDK9 抑制剂

THZ1(Gray 实验室,2014)是共价 CDK7 抑制剂,靶向 Cys312 远端半胱氨酸。它优先杀伤超级增强子驱动的肿瘤,包括 T-ALL(RUNX1)、MYCN-amp 神经母细胞瘤(Cell 2014, Chipumuro 等)、TNBC、SCLC、ATC、卵巢癌。这类肿瘤对 SE 程序高度依赖,稍微一抑制就崩溃。衍生物已进入临床:SY-1365(mevociclib)、SY-5609(选择性,口服)、CT7001(samuraciclib)。

CDK9/P-TEFb 抑制剂包括 flavopiridol/alvocidib、AZD4573;非选择性 CDK 抑制剂 dinaciclib(CDK1/2/5/9)在 CLL/MM 显示活性;选择性 CDK9 PROTAC 正在开发。

CDK12/13 抑制剂(THZ531)破坏 DNA 修复基因转录,与 PARP 抑制剂协同。

3. EP300/CBP 抑制剂

A-485 是 CBP/p300 HAT 域催化抑制剂,降低 H3K27ac、抑制 MYC/CCND1、AR 靶基因表达,在 AML、MM、NHL、CRPC 临床前有效。CBP30、GNE-049、CCS1477(inobrodib)是 bromodomain 抑制剂,CCS1477 已在 CRPC、AML I 期临床。

4. EZH2 抑制剂

Tazemetostat(Tazverik / EPZ-6438)是 SAM 竞争性 EZH2 抑制剂,2020 年 FDA 加速批准用于 INI1 阴性上皮样肉瘤、EZH2-mutant R/R FL,在 SMARCB1 缺失 MRT、DLBCL 也有活性。注意 2025 年因 SYMPHONY 试验(R2 ± tazemetostat)出现继发性血液恶性肿瘤的安全信号,Ipsen 自愿撤回 FDA 适应症,治疗组停药继续随访。

Valemetostat 是 EZH1/2 双抑制剂,在 ATLL、外周 T 淋巴瘤获得日本批准。第二代 EZH2 PROTAC 正在开发。

5. DOT1L 抑制剂

EPZ-5676 / Pinometostat 是 SAM 竞争性,在 MLL-r AML/ALL 临床数据有限但有活性,为联合治疗策略奠定基础(与 menin 抑制剂 revumenib/SNDX-5613 协同)。

Menin-MLL 抑制剂如 revumenib 在 NPM1-mut 与 KMT2A-r AML 中已显示重要疗效,这是近年来白血病治疗的重要进展。

6. Mediator 与其他靶点

CDK8/CDK19(Mediator kinase)抑制剂如 senexin B、SNX631、BCD-115/RVU120 等(NCT04021368、NCT05052255)在 AML/CMML、TNBC、HER2+ 乳腺癌、卵巢透明细胞癌、CRC 中评估,机制是抑制转录重编程、克服靶向治疗耐药。

MED12 突变(子宫平滑肌瘤、甲状腺癌)目前暂无直接小分子。

Cohesin/CTCF 拓扑靶向尚处于概念阶段,但 STAG2 失活的合成致死(STAG1 依赖)正在开发肽抑制剂。

针对凝聚体的策略目前以 1,6-hexanediol 作为工具性证据,临床前研究探讨 IDR/condensate 形成性药物;某些 BET 抑制剂、DRB 类与 LLPS 解构相关。

注意事项与开放问题

读完整篇文章应该已经能从某些角度回答开篇的四个谜题。但科学研究永远在进行中,以下是几个值得警惕的开放问题。

超级增强子是定量定义而非生化划界。ROSE 排序的拐点是经验性的,SE 与典型增强子在生化机制上多为程度差异;不同 ChIP 标记会得出不同 SE 列表。

接触与通信的争议未平息。活细胞成像挑战了 E-P 必须紧密接触才能转录的传统观念,凝聚体模型尚需更多内源性证据;1,6-hexanediol 的特异性受到质疑。

MLL3/4 与 H3K4me1 的因果关系。近期 CRISPR 催化死亡(catalytic-dead)实验提示 H3K4me1 的存在并非增强子激活的必要充分条件,MLL3/4 更多通过支架功能起作用。修饰标签往往是结果而非原因。

eRNA 功能争议。部分研究认为 eRNA 仅是转录副产物,其特异调控功能取决于具体基因座、细胞类型与 eRNA 二级结构,仍需更多定量、单分子数据。

泛 BET 抑制剂的脱靶与耐药。JQ1/OTX015 的临床效益单药有限;短半衰期、骨髓毒性、肠道毒性、脱靶 BRD2/3 都是问题;BET 阻断后细胞通过 LSD1/NuRD 的 SE 重塑产生耐药。

Tazemetostat 撤市。2025 年 4 月 Ipsen 因 SYMPHONY 数据(继发血液恶性)自愿撤回 FDA FL/ES 适应症,临床应用受限;新一代 EZH 抑制剂(EZH1/2 双抑制剂、PROTAC)正在替代。

CDK 抑制剂(尤其 CDK7/9)的治疗窗口问题。由于 RNA Pol II CTD 磷酸化的全局性,选择性窗口取决于细胞对 SE-驱动基因的依赖,肿瘤特异性需精准患者筛选。

凝聚体模型推断的临床转化。很多关于 EWS-FLI1、NUP98 凝聚体功能的结论建立在过表达系统(如 mESC、HEK293)中,内源水平、原位组织水平的验证仍在推进。

3D 基因组学的解释多为统计性。Hi-C/HiChIP 是群体测量,单细胞 Hi-C 数据稀疏,提到的环和 hub 通常是统计性平均;接触频率与转录功能的因果链需 CRISPRi/dCas9 与 Region Capture Micro-C 等高分辨率工具进一步验证。

Enhancer hijacking 判定标准不一。HAPI、Neoloop、PANGEA、CESAM 等算法各有偏倚,候选基因优先级需要结合 H3K27ac HiChIP、表达相关性、CRISPRi 功能验证三重证据。

前瞻性陈述的临床现实。本文提到的部分前瞻性内容(某些 PROTAC、condensate-modifying drugs)目前仍处于临床前或早期探索阶段,临床转化效果未有定论。