打开网易新闻 查看精彩图片

撰文丨王聪

编辑丨王多鱼

排版丨水成文

众所周知,基因包含着制造蛋白质的指令,根据“中心法则”,遗传信息从DNA流向RNA,再流向蛋白质。但人类基因组只有2%编码蛋白质,其余98%属于非编码序列,它们的功能在很大程度上是未知的。

人类遗传学的一个紧迫问题是了解这些非编码的基因组区域的作用,实际上,这些区域虽然不编码蛋白质,但它们广泛转录为RNA,其中包括成千上万的长链非编码RNA(lncRNA),这些lncRNA通常被剪接和多聚腺苷酸化,但通常不能翻译成蛋白质。在已注释的lncRNA中,只有极少数 (<1%) 具有明确的功能作用,在这些罕见的情况下,lncRNA被发现可以隔离miRNA、阻断翻译、形成生物分子凝集物、编码微肽,以及调控蛋白质或RNA。

lncRNA的低序列保守性、低丰度和细胞类型特异性表达,使其难以与不稳定的转录噪声区分开来。尽管全基因组生物信息学分析和比较测序研究已经发现了保守的lncRNA,提示了它们可能的功能作用,但后续的实验验证仅限于低通量研究,每次只关注一个lncRNA。

2024年11月7日,纽约大学Neville E. Sanjana团队(博士后梁雯薇为第一作者) 在国际顶尖学术期刊Cell上发表了题为: Transcriptome-scale RNA-targeting CRISPR screens reveal essential lncRNAs in human cells 的研究论文。

该研究开发了一种基于CRISPR-Cas13的靶向RNA的转录组规模的CRISPR筛选技术,并使用该技术在来自不同组织的5种人类细胞中筛选鉴定了778个必需的lncRNA,表明了许多lncRNA并非垃圾,而且在人类癌症和发育中发挥着必不可少的重要作用。

该研究建立了一种强大的筛选工具,可用于系统性研究非编码转录本的功能贡献,并为识别在任何表型或疾病中具有功能的lncRNA铺平了道路。此外,该筛选工具具有广泛适用性,并不局限于lncRNA,还可以直接应用于其他非编码RNA的筛选,包括增强子RNA和环状RNA。

打开网易新闻 查看精彩图片

CRISPR基因编辑技术的出现,给生物医学研究带来了革命性变化,大多数 CRISPR基因编辑使用Cas9酶在DNA水平上编辑基因。近年来,基于Cas9的CRISPR干扰(CRISPRi)和CRISPR激活(CRISPRa)被用于筛选和鉴定功能性lncRNA,虽然这些技术很有价值,但也往往遇到意料之外的上靶活性,也就是在预期的基因组位点结合,但会干扰附近的其他基因,此外,在DNA水平上扰动lncRNA位点,也可能抑制与lncRNA转录本无关的功能性DNA元件,导致筛选结果失真。

相比Cas9酶,Cas13酶靶向编辑RNA,而不会破坏附近的蛋白编码基因和其他DNA调控元件。

为了克服当前CRISPR筛选功能性lncRNA的局限性,研究团队开发了基于CRISPR-Cas13的RNA靶向的CRISPR筛选方法,可在转录组水平上以转录本和链特异性的系统性干扰lncRNA,确保位点内不会发生非预期的对附近基因或功能性DNA元件的调控。

研究团队使用大量平行CRISPR-Cas13正向转录组筛选了五个不同的人类细胞系(HAP1、HEK293T、K562、MDA-MB-231、THP1)中的6199个lncRNA,从中确定了一组共享的核心必需lncRNA(影响细胞的生存、增殖或分化),比较了它们与附近的蛋白质编码基因的必需性,分析了它们在单细胞中扰动后的转录组变化,并描述了它们在发育和癌症进展中的关键作用。

研究团队使用RNA靶向的CRISPR-Cas13核酸酶,系统地鉴定了必需lncRNA,并且通过靶向这些lncRNA附近的蛋白编码基因,还识别了这些蛋白编码基因是否同样必需。 利用7个器官和26个发育阶段 (从受孕后4周到老年) 的lncRNA表达图谱,研究团队设计了CRISPR-Cas13文库,目标是靶向在所有阶段至少一个器官或供体中表达水平在5RPKM及以上的所有lncRNA。 研究团队还靶向了另外2500个lncRNA,这些lncRNA来自最近使用DNA靶向的CRISPR进行的筛选,以及存在于lncRNA数据库 (lncRNAdb) 中的lncRNA。 研究团队设计的CRISPR-Cas13文库包含了75000个gRNA,用于靶向6199个lncRNA和附近的4390个蛋白编码基因。

对五个不同的人类细胞系(HAP1、HEK293T、K562、MDA-MB-231、THP1)的筛选结果显示,共有778个必需lncRNA,它们在至少一个细胞系中是必需的。

打开网易新闻 查看精彩图片

进一步分析显示,在这778个必需lncRNA中,61%(477个)是细胞类型特异性的(也就是只在一种细胞系中是必需的),33%(255个)是部分共享的(在2-4种细胞系中是必需的),只有6%(46个)是在所有5种细胞系中都是必需的。

对于蛋白编码基因而言,如果其在一种细胞中是必需的,那么它在其他细胞中往往也是必需的,相比之下,必需lncRNA则具有更强的细胞类型特异性,在不同细胞系之间的重叠较少。共享的必需lncRNA (在所有5种细胞系中都是必需的) 与细胞类型特异性的必需lncRNA相比,前者具有更高的转录丰度。

接下来,研究团队进一步详细研究了这46个共享的必需lncRNA,其中包括MALAT1和MIR17HG,前者是一种广泛存在的lncRNA,之前已被证明可调节细胞运动和癌症转移;后者是一种miRNA宿主基因,可促进癌症进展。这46个必需lncRNA中只有6个是在之前的必需lncRNA研究中被发现的,而且通常只在一个细胞系中发现。

研究团队进一步分析了这些必需lncRNA是否会调控其附近的蛋白编码基因,这是一个从未在非编码RNA中研究过的机制问题。而该研究发现,绝大多数必需lncRNA独立于其最近的蛋白编码基因运作。

利用单细胞的转录组分析,研究团队还发现,这些必需lncRNA的缺失会损害细胞周期进程并驱动细胞凋亡。许多必需lncRNA在发育过程中表现出跨组织的动态表达,在人类发育早期的组织中高表达,而在后期低表达,这表明有些lncRNA在人类发育过程中发挥着重要作用。

研究团队还对大约9000个原发肿瘤进行了分析,发现在特定类型的肿瘤中lncRNA的表达发生了改变,并进一步确定了那些在肿瘤中表达与较好或较差癌症生存率相关的的lncRNA,从而提供了新的生物标志物和潜在的治疗靶点。

打开网易新闻 查看精彩图片

必需lncRNA在肿瘤中差异表达,并与生存相关

总的来说,这项转录组规模的功能性lncRNA筛选,促进了我们对非编码转录本的理解,并展示了利用CRISPR-Cas13进行转录组规模的非编码筛选的潜力。该研究提供了一种强大的工具,可用于系统性研究非编码转录本的功能贡献,并为识别在任何表型或疾病中具有功能的lncRNA铺平了道路。

此外,该研究建立的转录组规模的RNA靶向的CRISPR筛选框架具有广泛适用性,并不局限于lncRNA,还可以直接应用于其他非编码RNA的筛选,包括增强子RNA和环状RNA,以研究非编码转录本的功能。

论文链接

www.cell.com/cell/fulltext/S0092-8674(24)01203-0