因为一篇 Cell 论文,西湖大学研究员已经成为同行里的“红人”。“自从论文发表之后,我辗转北京、香港和杭州做了多个报告,听众的反响非常热烈。在北京那次报告结束之后,我被十多个人团团围住,大家热切地向我提了很多问题。这种热烈场面是我从事科研以来的第一次。”他说。

打开网易新闻 查看精彩图片

图 | 王寿文(来源:)

在这篇论文中,和合作者成功开发出新一代谱系追踪小鼠 DARLIN,借此研发出全球第一个单细胞多组学谱系追踪技术——Camallia-seq。

DARLIN 小鼠可以通过 Dox 诱导产生 10 的 18 次方种不同的谱系标记基因,这远远超过一只成年小鼠的总细胞数。同时,DARLIN 小鼠拥有超高的追踪效率。在接受测量的单 细胞中,有 60% 的单细胞能被检测到可靠的谱系标记基因。

由于 Camallia-seq 能在单个细胞中同时检测谱系标记、转录组、全 DNA 甲基化和染色质可及性,因此针对细胞“我是谁,从哪来,到哪去?”这三个问题,本次技术可以提供全面的信息。

利用这两项新技术,他们以造血干细胞为主题,回答了三个有趣的问题:造血干细胞的命运选择是怎样的、如何在不同骨髓之间的迁移、以及细胞分子印记的传承。

其中,最后一个问题最有意思。即造血干细胞在分裂过程中是否会把某些分子信息传递给它的后代,从而使其后代记住自己的“祖先”?

要知道,在一两次细胞分裂中维持这种分子记忆并不足以为奇,但在数十次细胞分裂后依然维持这种分子记忆,那就十分的非同寻常。

而通过谱系追踪课题组首次在单细胞层面观察到:DNA 甲基化的分子记忆在几个月后,依然能够稳定地保持。并且,转录组和染色质可及性上的分子记忆也会很快消散。

由此可见,DARLIN 小鼠和 Camellia-seq 将实现领域内上一代小鼠所无法实现的使命,即在发育、疾病和衰老等重大问题中,在血液、肝脏、肌肉、大脑等不同组织里,系统地研究回答细胞的哲学三问(“我是谁,从哪来,到哪去?”)。

同时,本次成果的意义更多在于:给生命科学领域的科研人员提供一款强大的工具,辅助他们解决各自领域的问题。

这些问题大部分可能是基础生命科学领域的问题,并不直接与应用挂钩。不过,对于这些问题的理解最终会为疾病治疗提供新的思路。

打开网易新闻 查看精彩图片

(来源:Cell)

打开网易新闻 查看精彩图片

三个问题:我是谁?从哪来?到哪去?

都说人生有哲学三问:我是谁?从哪来?到哪去?这不仅仅适用于我们自己,也适用于我们体内的细胞。搞清楚这些问题,不仅仅可以深化人类对生命本身的认识,还有可以启发新疾病疗法。

在这其中弄清楚每个细胞的身份是第一步。最近十年持续进行的单细胞革命,解决的正是上述问题。

2009 年,北京大学教授团队开发出全球第一个单细胞测序技术。通过这项技术,可以系统性地获悉每个细胞所能表达的基因(即转录组)。这项技术一经面世便引起极大轰动,也因此被誉为“单细胞测序技术第一人”。

过去十多年来,单细胞技术得到了快速发展与应用,从一开始只能测几个细胞,到目前可以同时测量上百万的细胞。

其中的一个里程碑突破诞生于 2015 年。艾伦·克莱因()教授,也就是 在哈佛大学期间的博士 后导师,开发出第一个基于微流控技术的高通量单细胞测序技术,并和其他学者一起揭示了多个物种在早期胚胎发育过程中的细胞状态及其随时间的变化。

2017 年,人类细胞图谱计划应运而生, 旨在 测量人体里所有细胞的转录组状态,其重要意义堪比 20 世纪末的人类基因组计划。至此,细胞“我是谁”的问题大致解决。

但是,碍于技术的限制“从哪来?到哪去?”的问题却进展缓慢。要想解决这些问题就得用到另一项前沿技术:谱系追踪。

这项技术通过给细胞打上不同的、稳定遗传的标记,来追踪细胞及其后代的分裂、分化、迁移等。

传统的谱系追踪技术是给细胞染上可遗传的不同颜色,但是这种方法只能追踪少数几个细胞。而同时追踪成千上万的细胞,可以在细胞的某段 DNA 中引起或插入能被稳定遗传的不同突变序列,并让这些标记基因加以表达。

理论上,这些标记基因可以拥有无穷的种类,因此可以同时标记无穷的细胞数。同时,谱系追踪技术能和单细胞测序技术兼容,即可以通过测序来同时获得单个细胞的状态与谱系信息。

2020 年,哈佛大学教授费尔南多·卡马戈()和团队把这项技术用于小鼠中,开发了谱系追踪小鼠 CARLIN。通过化合物 Dox,可以在任意时刻诱导这只小鼠内的细胞在特定 DNA 位点产生突变,从而实现细胞状态与谱系的同时追踪。

原则上,这时就可以在小鼠这一模式生物中搞清楚“我是谁,从哪来,到哪去?”等问题。这三个问题之中的细分问题则可以包括发育、疾病和衰老,也可以是任何特定的组织比如血液、肝脏、肌肉、甚至大脑。

也正因为应用前景十分广阔,CARLIN 小鼠的相关论文被发表在 Cell 上,并受到时任美国国家卫生研究院院长弗朗西斯·柯林斯()的特别关注。

然而,CARLIN 的局限性很快显现出来。

其一,CARLIN 只能产生大约 44000 种不同的谱系标记基因,这意味着使用 CARLIN 最多只能追踪 4 万多个不同的细胞。实际上这一理论估算依旧严重高估了 CARLIN 的潜力。在现有的案例中之中,CARLIN 只成功追踪到几百个细胞,而一只成年小鼠里有数十亿的细胞。

其二,CARLIN 追踪细胞谱系效率低下。当测量1000 个单细胞时,意味着只有大约 100 个细胞(占比 10%),能被检测到可靠的谱系标记基因。这不仅仅意味着更高的成本,也意味着大量信息的丢失。

其三,细胞的状态不仅仅包含转录组,还包括表观组(包括 DNA 上面的修饰信息)等。有研究表明,细胞的表观信息对于细胞行为、特别是命运选择,具有重要、甚至是前瞻性的影响。然而,目前的谱系追踪技术只能测量细胞的谱系与转录组、或谱系与表观组学,根本无法做到兼而有之。

因此,亟需开发一项新技术,来同时获得单细胞的谱系信息、转录组和表观组,从而更加系统地揭示细胞的命运选择。正是在这样的背景之下,和哈佛大学李莉博士开展了本次课题。

打开网易新闻 查看精彩图片

(来源:Cell)

打开网易新闻 查看精彩图片

三个故事:细胞命运、细胞迁移、细胞记忆

开发一项新技术,天然地存在一定的风险。假如基因改造的 DARLIN 小鼠,因为 Dox 诱导的大量 DNA 突变而不正常发育、甚至死亡,都会严重影响课题进度。

“不过,我们的课题还算比较顺利,上述情况并没有发生。这要多亏论文一作李莉博士在每一步的细心考虑。”说。

研究中,他们先是对技术路线进行测试。测试结果显示,Cas9-TdT 确实比 Cas9 蛋白本身更容易产生更加多样的谱系标记。

然后,他们开始打造 DARLIN 小鼠。这是一个漫长的过程,因为从一个被基因编辑过的胚胎干细胞到小鼠需要时间,而把不同的基因型通过杂交整合在一个小鼠里也需要很多时间。

在这期间,通过大量的数据分析,系统性地评价 DARLIN 小鼠,为研究的后续走向提供决策基础。

接着,他们开始探索 DARLIN 小鼠在具体生物学问题中的应用,以及 Camellia-seq 的开发与应用。

据介绍,本次论文的第一作者李莉 此前曾师从 教授,有着极强的分子生物学的训练,为 DARLIN 小鼠和尤其是 Camellia-seq 技术的开发奠定了深厚的基础。李莉主导了这个课题的所有实验工作。当和李莉开展本次合作时,当时还在国外的 已经获得美国 Damon Runyon 癌症基金会的资助,可以开始自己的独立科研课题。

因此从本次课题伊始,就完全独立地负责本次项目的所有计算工作。期间,他遇到的第一个挑战在于如何有效处理和管理大量的 DARLIN 数据。

DARLIN 这一课题产生了大量数据,涉及到 100 多个不同的生物样本,而且每个样本的处理条件不完全一样。

在美国期间,其中有大约半年时间在一家初创公司负责开发机器学习模型,这让他得以了解一些先进软件和数据管理思想。

后来,他这些思想用于 DARLIN 项目的管理,并开发出一款基于 snakemake 的数据处理软件。通过设定参数,实现了 DARLIN 数据的流程化管理,从而将他从“数据汪洋”之中解救出来,也让他拥有更多时间站在更高层面去思考课题走向。

DARLIN 课题的最大困难在于如何分析 Camellia-seq 的数据,特别是 DNA 甲基化和染色质可及性的数据。这些数据不仅仅庞大、稀疏,而且细胞数本身就比较少。

“我仔细研究了之前的一些方法,但是效果都不够好。那段时间,我似乎已经尝试了所有可能的方向,焦急中带有一丝丝绝望。不过这段时间的努力也不是白费的,它让我对数据特性有了更深入的理解。”说。

后来有一天,和李莉在白板上又一次探讨思路。这时,从头审视数据本身的特性和挑战,以及在算法中所做的各种假设。

突然,他意识之前的算法存在漏洞,于是他立马开始测试。“两个小时后我欣喜若狂,我终于可以从这一大堆 0 和 1 的数字中看到背后的生物信号了。”他说。

具体来说,他和李莉最初的实验设计和采集到的数据,本来是为了回答细胞命运选择中的表观遗传基础。

但是,发现对应的表观遗传信号并不明显,反而意外地发现了细胞记忆这种现象。于是在论文撰写时,他们着力讲述了这个关于细胞记忆的故事。

打开网易新闻 查看精彩图片

(来源:Cell)

与此同时,还成功地把 DARLIN 小鼠应用于研究细胞的命运选择。一开始,他和李莉想研究造血干细胞在不同组织的迁移,并收集了在包括头骨、肝、肺等不同部位的单细胞数据。

然而事与愿违,这些数据里并没有他们想要的故事。后来,利用博后期间开发的 CoSpar 技术,探讨了关于细胞命运的问题,借此把所收集的数据变废为宝。

“我只选取了来自头骨的单细胞数据,因为它完整地覆盖了从干细胞到下游细胞的分化轨迹。这也是我开发的 CoSpar 第一次被应用到体内谱系追踪数据中,看到自己开发的工具真的能解决问题,确实很开心!”他说。

最终,他们在论文中讲述了细胞命运、细胞迁移、细胞记忆这三个故事。它们既相对独立、又相辅相成,能够系统性地展示谱系追踪的不同应用,同时也能揭示 DARLIN 小鼠的强大应用前景。

最终,相关论文以《新一代谱系追踪小鼠实现极高谱系标记多样性和单细胞多组学谱系追踪》( )为题发在 Cell [1]。

李莉博士是第一作者,和哈佛大学教授费尔南多·卡马戈()担任共同通讯作者。

图 | 相关论文(来源:Cell)

下一步,将继续通过开展合作,利用 DARLIN 小鼠解决具体的生物学问题,比如细胞免疫的过程等。另一方面,则要利用 Camellia-seq 进一步探讨细胞命运决定的表观组学基础、以及细胞记忆的生物学意义。

打开网易新闻 查看精彩图片

博后期间转学生物,学完不久就发 Cell

读到这里,你可能觉得大概是生信背景。其实,他本科和博士学的都是物理学专业,直到博后期间才开始研究生物学。

他表示:“虽然物理知识并没有给这个课题提供直接的帮助,但是物理博士的训练对我帮助很大的。本次研究中的不少问题都需要使用数学语言,而我过去的理论物理背景给了我非常扎实的数学训练,让我可以胜任这些工作。”

他继续说道:“从世俗意义上,我是一个比较成功的换方向的例子。我的经历对别人也许有一些借鉴意义。”

尽管本科和博士都是物理背景,但是他在短短几年之内蜕变成一个多学科交叉的科学家,不仅在西湖大学生命学院做主聘教授,还兼聘于西湖大学物理系。

他认为自己之所以能够快速转换赛道,一方面是因为自己在博士期间就养成了独立研究和自我学习的能力,另一方面则是拥有和最优秀科学家的合作机会,并参与到非常前沿的课题中。

他说:“我的博后导师 自己就是理论物理博士,后来引领了单细胞组学的大潮。科学研究追求求真,但是科学讲述也需要考虑美感。我从 身上学到最多的就是如何把真和美统一起来,将科学研究变成一个生动的故事。”

后来,他得以有机会参与到本次 DARLIN 课题之中,这让他得到了极大的锻炼,也是他第一次和生物学家深度合作。

“这个过程不仅深化了我对于生物学的认识,强化了我的数据分析和算法开发的能力,也让我讲故事的能力得到了极好的锻炼。”他表示。

目前,已经回国的,也将带着这些积累和经验,率领团队走向更美 的远方。

在西湖大学的团队已经有 7 名成员,包括四位博士生,一位即将入站的博后,和两位研究助理。大约三分之一的人做实验,其他人做数据分析和算法开发。

他说:“我们是一个多学科交叉团队,一半是生物背景出身的,另一半则有很强的计算机、数学、或者物理的训练。我们专注于计算基因组学与谱系追踪,希望未来可以开发新的谱系追踪工具,刻画细胞在正常和疾病条件下的行为与规律。”

打开网易新闻 查看精彩图片

参考资料:

1.Li Li, ..., Shou-Wen Wang & Fernando D. Camargo (2023). A mouse model with high clonal barcode diversity for joint lineage, transcriptomic, and epigenomic profiling in single cells. Cell, 186(23), 5183-5199.

运营/排版:何晨龙

打开网易新闻 查看精彩图片

04 /
05 /