上个月,人类染色体4D图谱正式发布,人类对生命之谜的理解又上了一个台阶。

如果说人类全基因组序列是一本超全通讯录,摸清了每个基因叫什么住哪里,染色体4D图谱计划(4D Nucleome,以下简称4DN)就是一个信息量爆炸的朋友圈,记载了它们在细胞中是如何彼此联系,关键时刻又是如何协作的。

这项由人类研究自身的宏大工程启动十年,终于迎来了阶段性大成果。

它汇聚了普林斯顿大学、宾夕法尼亚大学、卡耐基梅隆大学等多所国际高校与研究机构的力量,也有我国复旦大学、浙江大学等团队参与其中。最终,研究人员完成了这篇由90位作者共同署名的联合论文,并于12月18日发表在顶级期刊《自然》(Nature)上。

打开网易新闻 查看精彩图片

论文作者名单| 图源 Springer nature

在这项研究里,研究人员系统地呈现了人体中的两种代表性细胞——分化能力极强的人类胚胎干细胞,以及到达了分化终点,完全成型了的成纤维细胞中的染色体三维结构。

同时,研究人员还引入了第四维度——时间,描述了随着时间推移,细胞中的三维结构会如何变化。

打开网易新闻 查看精彩图片

人类胚胎干细胞(中央)和喂养它们的小鼠胚胎成纤维细胞(外周),这两种细胞的形态、结构有着巨大的差异 | wikipedia commons

这项研究为未来相关研究奠定了重要基础,大大加深了我们对染色体三维结构的认识。

比如,它为遗传病诊断提供了新视角:一些机制不明的腭裂、唇裂,或多指、并指等新生儿发育异常,可能并非源于蛋白序列改变,而是染色体折叠出错。还有,更多目前病因不明的疾病也许能借助4DN的框架被重新解释,我们对自身基因的认识又上升了一个纬度。

4DN计划,让基因序列多了两个维度

在本世纪初,由全球多国科研机构合作完成的人类全基因组图谱发布了。这项计划测出了人类基因组的完整序列,让我们第一次清楚地知道每条染色体上碱基的排列顺序,以及基因大致分布在哪里。

但这份图谱有一个巨大的缺陷,它只记录了摊平的基因二维序列,但在真实的生理环境中,染色图的结构要复杂得多。DNA在细胞核中会经历多重折叠,形成复杂的三维结构,这些结构还会随着细胞状态变化而改变,这是细胞核精确调控生理活动的基础,仅凭碱基序列是看不出来的。

打开网易新闻 查看精彩图片

染色体3D图谱概念图,很像干脆面 |Springer nature

为了进一步解释DNA在空间和时间上的变化,4DN计划诞生了。 它自2014年启动,迄今已产出800余篇论文,积累了大量数据、方法与工具。如今,这些成果正在汇聚成一份关键的公共资源:一张更接近全景的人类染色体4D图谱。

我们在初中教课书上看到的像扭转的梯子一样的DNA示意图,其实是2D的,只记录了染色体上A、T、C、G四种碱基序列的种类和顺序。

打开网易新闻 查看精彩图片

常见的DNA示意图|healthline

而在人的细胞内,基因组并非像手串一样一条到底,事实上,基因组会进一步折叠、堆叠、打包,形成毛线团一般层层嵌套的三维染色质与染色体结构。

打开网易新闻 查看精彩图片

层层折叠的染色质,真实的情况远比教科书上的复杂 |wikipedia commons

在这些三维结构中,研究人员尤其关注一种关键单元——染色质环(Chromatin loop)。染色质环与基因组功能紧密相关,理解这些环,等于在理解基因组里远距离调控的方式,让三维结构能够和细胞里的真实生理功能对上号,二维平面的基因组就一下子立了起来。

基因表达并不是单点开关,一个基因能否启动、何时启动、强度多大,往往需要多个远端调控元件协同决定。好比在工作中,启动一个项目往往得凑齐好几位领导的签字。但为了获得领导的签名,一般都要跑这跑那,而基因组中也是类似的。

目的基因和调控元件在二维,也就是基因序列上,可能隔着十万八千里,几十万到上百万个碱基都有可能。要让它们真正协同工作,就需要把 DNA 折叠起来,让原本相距遥远的片段在空间里靠得足够近,于是染色质环就形成了。

为了尽可能全面且精确地找出所有染色质环,研究人员使用了多种捕捉细胞核中染色质环的技术,对环进行多角度地识别和整合,绘制出了精确的染色体三维图谱。

打开网易新闻 查看精彩图片

凝聚素使染色体成环 | wikipedia commons

到这里,我们只是把基因组从二维升维到了三维。

但这个三维结构并非固定不变:随着细胞周期推进、分化发生、外界刺激到来,染色体会改变折叠方式与相互接触的模式。科学家希望把这种结构随时间或者状态变化的维度也纳入进来,这就是4D图谱中的第四维——时间。

有了研究人员建立的图谱,我们就能查到许多仅凭DNA序列本身看不出来的信息:例如哪些基因在三维空间里会被折叠到彼此附近,它们更倾向位于细胞核的哪些区域;以及当细胞状态变化时——比如在DNA复制的不同阶段——这些基因之间的相互作用关系又会如何随之重排。

4D是如何构建的

研究人员们选择了两种具有代表性的细胞种类,是人体中细胞发育的起点和终点:未经分化的人胚胎干细胞H1-hESC,和到达发育终点的永生化成纤维细胞HFFc6

识别染色体的技术在20多年前,由项目中的一组研究人员发明出来,这种技术的目的是测量酵母中少量DNA序列之间的接触频率。为了能用在染色体4D图谱计划中,研究人员对这种方法进行了大量的优化,使其可以测量更大的规模和更高的分辨率。

研究人员用四步抓到染色体环。

第一步:固定

研究人员先用化学试剂处理细胞,像是处理新鲜动物标本时的防腐步骤一样,把当时染色质的空间状态固定下来,避免在后续操作中散开。

第二步:剪碎

接着用“剪刀”把染色体剪成许多小片段。一般来说,剪得越细,后面定位越精确。

第三步:就地拼接

在DNA被剪开的状态下,加入连接酶让这些片段进行就地拼接。当时在细胞核里离得越近的片段,越容易被粘到一起。

第四步:测序读取

最后对这些拼接产物进行测序。研究人员会读到一种关键证据:一条序列的前半段来自基因组的A位置,后半段却来自很远的B位置——这说明A和B在细胞核里曾经非常接近。在大量这样的证据汇总后,我们所说的染色质环就被抓住了。

打开网易新闻 查看精彩图片

染色质环测序核心流程——固定、剪切、连接、测序读取,本图展示了Hi-C测序法。但无论什么方法,核心流程是不变的|论文

3D基因组的测序方法不止一种,而每种方法擅长捕捉的环类型是不一样的,论文中,研究人员使用了7种测序方法,尽可能地全面捕捉染色质环。

在获得原始数据后,研究人员还要像后厨洗菜一样,对数据进行进一步的清洗、定位。筛掉重复和低质量片段,以及把得到的片段定位回基因组。

接下来才是最关键的一步:从海量的配对信息里找出真正可靠的信息。研究人员会进一步筛选那些在统计上足够突出、在不同重复中也足够稳定的基因位置,只有满足这些条件的,才会被认定为可靠的染色质环。

经过这样一轮轮大浪淘沙、精益求精的筛选,研究团队最终在两种细胞中分别构建出规模惊人的环目录:每种细胞各自识别并编目了约14万条染色质环数据

借助这些庞大又精确的数据,研究人员不仅能更完整地描绘某个基因所处的染色体环境,还可以推断它可能与哪些远端调控元件或其他基因发生互相作用,并进一步把关键遗传过程放回到染色质的立体结构中进行定位与理解。

打开网易新闻 查看精彩图片

4DN模型可以直接帮助我们将细胞的结构对应到相应的功能|论文

之后,就该搭建第四维了。

这里的时间,并不是我们直觉里那种从生到死给细胞拍一段连续视频,在这项工作中,4DN主要用两种方式把时间引入图谱。

第一种,是以细胞周期中的DNA复制作为天然的时间轴——DNA 复制本身就有明确的先后顺序。研究人员将三维结构特征与复制时序数据逐一对应,观察不同折叠状态与复制的进程,以及基因激活等过程之间的对应关系,从而把静态的三维结构放回到细胞周期推进的时间框架中理解。

第二种,是从单细胞差异入手,把变化当作动态的一部分:通过比较不同细胞类型之间的差异,以及同一种细胞内部个体之间的波动范围,研究人员得以判断哪些结构特征相对稳定、是一定会保留的看家基因;哪些更灵活,会随着细胞功能状态或周期阶段的变化而变化。

打开网易新闻 查看精彩图片

细胞间差异:POU3F1基因在胚胎干细胞中被沉默(红色),在成纤维细胞中激活(灰色)|论文

4DN图谱有了,下一步呢?

染色质结构的异常与先天性出生缺陷和癌症发展密切相关。理解DNA的动态4D组织,将帮助研究人员弄清核内结构的变化会影响哪些基因被打开或关闭,以及异常的核组织如何打断正常的发育与细胞功能,从而引发人类疾病。

例如在EPHA4基因附近,存在着特定的结构来限制增强子的作用范围、精确调控基因表达。一旦某些结构变异或突变破坏了这套机制,原本只负责驱动EPHA4的增强子就可能串台,误触发隔壁的发育基因,进而导致不同程度的肢体发育畸形,例如多指、并指等。

打开网易新闻 查看精彩图片

EPHA4结构异常导致的畸形 |文献

4DN计划正在努力使生物医学研究界能够确定治疗由异常核组织引起的人类疾病的新目标。可能有更多原因未知的疾病,可以通过4DN来找到病因和治疗手段

因此,4DN计划的目标不仅是建立图谱,更可以让生物医学研究界能够据此找到由异常核组织引起疾病的新靶点。未来,许多目前病因不明的疾病也许能借助4DN的框架被重新解释——从结构层面找到真正的致病环节,并为更精准的诊断与治疗提供线索。

在绘制4DN图谱的过程中,也诞生了不少非常实用的“副产品”。要把来自不同团队、不同平台的大量数据汇聚成一个可用的公共资源,标准化和流程化是不可少的——就像现代工业生产不可能再像小作坊一样一件件手搓。

因此,在过去十年里,4DN项目组逐步推动并完善了测序数据的统一标准与格式,使书同文,车同轨,确保每个实验室产出的数据格式一致且通用。这样一来,不同来源的数据能够更顺畅地拼接、对照,并最终汇入同一张图谱。这种标准化不仅打破了实验室间的数据壁垒,还促成并加速了不同地区之间的合作,是一项功在当代、利在千秋的举措。

同时,4DN在持续更新和维护项目论文列表与产出集合,使方法学、数据资源、工具等都保持最新,让全球的研究人员们都能以更高效的方式来完成研究。在逆全球化情绪抬头的当下,4DN这种开放共享、没有国界的协作方式,确实让人精神一振。

光建成数据库还不够,研究人员更想把它用起来。下一阶段,4DN的目标不再只是给出一张染色体地图,而是要把这张图谱落到每一个细胞上,让我们能够读出细胞在某一时刻的实时生理活动。

为此,4DN图谱需要将两类单细胞数据联动:一类是高分辨率显微镜下的单细胞成像数据,直接看到染色体与核内结构在空间中的位置;另一类是单细胞的基因组学数据,读出同一个细胞里基因表达、复制等分子事件的状态。把这两类信息整合起来,研究人员就有机会从静态走向动态,还原细胞当下的实时状态。

这些努力最终要回答一个简单,但是核心的生物学问题:每个细胞结构、功能的不同导致每个细胞核都不完全一样,甚至差异很大,但生命体却能稳定发育、稳定运行。那么,细胞究竟是如何在这种千差万别的背景下,仍然可靠地执行同一套基因表达程序,并把结果控制在可控、可预测的范围内?

打开网易新闻 查看精彩图片

胎儿的发育,很神奇吧 |来源:GIPHY

如果真的能够回答这个问题,那么人类就将理解在人体这个如此混沌的系统中,不同的细胞是如何各显神通、互相合作,保持整个系统的平衡。我们也能反过来利用这点,将因为受伤、得病、衰老而失衡的人体重归于平衡之中

参考文献

[1] Lupiáñez DG, Kraft K, Heinrich V, Krawitz P, Brancati F, Klopocki E, Horn D, Kayserili H, Opitz JM, Laxova R, Santos-Simarro F, Gilbert-Dussardier B, Wittler L, Borschiwer M, Haas SA, Osterwalder M, Franke M, Timmermann B, Hecht J, Spielmann M, Visel A, Mundlos S. Disruptions of topological chromatin domains cause pathogenic rewiring of gene-enhancer interactions. Cell. 2015 May 21;161(5):1012-1025. doi: 10.1016/j.cell.2015.04.004. Epub 2015 May 7. PMID: 25959774; PMCID: PMC4791538.

[2] Dekker, J., Oksuz, B.A., Zhang, Y. et al. An integrated view of the structure and function of the human 4D nucleome. Nature (2025). https://doi.org/10.1038/s41586-025-09890-3

[3] https://www.activemotif.com/catalog/1317/hi-c-service

作者:李小雅

编辑:翻翻

封面图来源:Nature

打开网易新闻 查看精彩图片

Guokr

24节气中最后也是最冷的一个节气——大寒要来了。主打科技保暖的素湃,放出一波冬季重磅福利

明早7点,除了抗寒衣,保暖内衣、卫裤等等,全场59元起,给你从头到脚的御寒武装。就赶快预约直播!

点个“小爱心”吧

打开网易新闻 查看精彩图片