每年,美国大约有2500万人生活在一种特殊的困境里:他们知道自己得了某种罕见遗传病,却说不清楚这病从哪来、会往哪走、该怎么治。医生也给不出答案。基因组测序已经普及多年,科学家也陆续找出了不少致病突变,但仍有高达70%的患者找不到明确的基因解释。
这个僵局可能正在被打破。2024年11月7日,麻省理工学院怀特黑德研究所的Iain Cheeseman实验室在《Molecular Cell》上发表了一项研究,核心观点听起来有点反直觉:我们可能一直在用错误的方式读基因组。
问题出在一个根深蒂固的假设上——"一个基因编码一种蛋白"。这个简化模型从中学课本一路写到临床指南,导致医生和研究人员在排查致病突变时,只盯着那个"已知"的蛋白产物看。但Cheeseman团队发现,大多数基因其实能制造多种蛋白版本,有些隐藏版本甚至被忽略了二十多年。更关键的是,同一个突变对不同蛋白的影响可能截然不同,这意味着大量"看起来没事"的突变,实际上正在悄悄致病。
这项研究不仅给出了理论框架,还带来了两个真实的病例故事。通过与波士顿儿童医院病理科主任Mark Fleming合作,研究团队追踪到了两位贫血患者的异常表现,最终发现他们的病因藏在同一个基因的第二种蛋白里——而那种蛋白,此前从未被怀疑过。
"我们希望这项工作能说明,考虑一个基因是否制造多种蛋白版本、以及每个版本在健康和疾病中扮演什么角色,这件事有多重要,"论文第一作者、Cheeseman实验室的博士生Jimmy Ly说,"这些信息可能带来对疾病生物学更好的理解、更好的诊断,也许有一天还能带来针对性的治疗。"
蛋白制造的"隐藏选项"
要理解这个发现,得先回到细胞内部的生产线。基因的本质是一本说明书,细胞里的核糖体就像流水线上的工人,按照说明书把氨基酸串成蛋白质。传统教科书描述的流程很规整:找到一个"起始密码子"(start codon)开工,一路读到"终止密码子"(stop codon)收工,一个蛋白就诞生了。
但Cheeseman和Ly关注的,是这套系统里的一个"漏洞"——有些基因说明书里不止一个起始密码子。
核糖体这个工人有时候会跳过第一个开工信号,从后面的起始密码子开始读。结果就是:同一本说明书,造出了长短不同的蛋白。短的版本少了开头一段,功能可能完全不同。这种现象在分子生物学里不算新闻,但Cheeseman团队想追问的是:细胞为什么要保留这个选项?这些隐藏版本到底是边角料,还是有正经工作的正式员工?
为了系统性地回答这个问题,研究人员开发了一套分析流程,在人类细胞中大规模扫描那些能从同一个基因产生多个蛋白版本的情况。他们发现,这种"选择性起始"比我们以为的普遍得多——而且细胞对这些版本的使用是高度调控的,不是随机出错。
换句话说,这些隐藏蛋白不是生产事故的副产品,而是细胞主动管理的资源库。同一个基因在不同组织、不同发育阶段、不同应激条件下,可能会切换主版本和隐藏版本的比例。这有点像一家工厂同一套设备能切换生产两种型号的产品,根据市场需求调整产量。
当突变只击中"隐藏款"
如果隐藏蛋白真的在干活,那它们生病的时候也会出问题。这就是Cheeseman团队转向疾病研究的逻辑。
他们与合作者Mark Fleming一起,盯上了一种叫Diamond-Blackfan贫血的罕见病。这是一种先天性骨髓衰竭综合征,患者红细胞生成受阻,从婴儿期就开始贫血。已知病因与编码核糖体蛋白的基因突变有关——具体来说是RPS19基因。
RPS19的标准版本蛋白是核糖体的结构组件,参与蛋白质合成。如果它坏了,细胞造蛋白的整体效率下降,快速分裂的造血干细胞首当其冲,贫血就此发生。这个机制已经研究了二十多年,临床检测也主要围绕RPS19的主版本蛋白展开。
但Cheeseman团队注意到,RPS19基因其实还能制造一个更短的版本。这个隐藏版本少了主版本N端的一段序列,理论上可能定位到细胞的不同区域,执行不同的功能。问题是:它真的在干活吗?突变会影响它吗?如果会,临床表现会和经典型一样吗?
Fleming提供了两个关键病例。两位患者都有贫血症状,但表现不太典型——他们的红细胞体积异常、骨髓检查也有特殊发现,按传统标准却不完全符合Diamond-Blackfan贫血的诊断。更奇怪的是,他们的RPS19基因测序结果显示,突变位置并不在"重要"的区域:按传统理解,这些突变不该影响主版本蛋白的功能。
研究团队深入分析后发现,这两个突变恰恰落在了隐藏版本特有的序列区域。它们对主版本蛋白毫发无损,却专门破坏了那个短版本。而这两位患者的临床表现,也与经典型Diamond-Blackfan贫血有微妙但可辨别的差异。
这是一个此前未被描述的亚型:同一种基因病,因为击中的是不同蛋白版本,呈现出不同的临床面貌。如果医生只检测主版本蛋白,这些病例就会被漏诊或误诊。
70%的未解之谜,有多少藏在选项菜单里?
这个案例的特殊性在于,RPS19的隐藏版本此前并非完全未知——它偶尔出现在文献角落,只是从未被认真对待过。Cheeseman团队怀疑,基因组里还有大量类似的隐藏蛋白,我们甚至不知道它们存在。
他们的系统性扫描支持了这个猜测。在人类基因组中,能检测到多个潜在起始密码子的基因比例高得惊人,而细胞实际上在使用其中相当一部分。这些隐藏版本的表达往往具有组织特异性:在肝脏活跃的版本,在脑里可能完全沉默;胚胎发育时主导的版本,成年后可能退居二线。
这意味着,一个突变是否致病、导致什么症状,不仅取决于它破坏了哪个基因,还取决于它破坏了哪个版本——以及这个版本在患者体内哪些地方正在干活。两个携带相同基因突变的人,如果由于其他遗传背景或环境因素导致隐藏版本表达水平不同,临床表现可能天差地别。
这串逻辑如果成立,对那70%找不到基因解释的患者意义重大。也许他们的突变不在基因的外显子区域,而在调控隐藏版本表达的暗处;也许测序报告标注的"意义不明变异",恰好落在某个我们还没命名的蛋白版本上;也许他们需要的不是更深度的测序,而是换一种方式解读已有的数据。
Cheeseman和Ly在论文中谨慎地没有夸大这个数字。他们不知道这能解释多少未解病例——可能只有几个百分点,也可能远超预期。这需要系统性研究来验证。但他们确信的是,现有的诊断框架存在盲区,而这个盲区的大小,我们刚刚才开始测量。
从"一个基因一种病"到"一个基因多种病"
这个发现还挑战了更底层的医学分类逻辑。我们习惯用基因来命名疾病:RPS19突变导致的叫Diamond-Blackfan贫血,CFTR突变导致的叫囊性纤维化,以此类推。这种命名暗含的假设是,同一个基因的突变导致同一种病。
但如果一个基因能造出多种蛋白,这个假设就松动了。RPS19的案例显示,击中不同蛋白版本的突变,可能导致"同一种基因病"的变体,甚至表型差异大到需要重新分类。未来我们可能需要区分"RPS19主版本型"和"RPS19短版本型",就像乳腺癌现在细分出激素受体阳性、HER2阳性、三阴性等亚型一样。
这种细分不只是学术游戏。不同蛋白版本可能依赖不同的分子通路,对治疗的响应也可能不同。如果隐藏版本的功能与主版本差异足够大,针对主版本设计的疗法可能对隐藏版本型患者完全无效,甚至有害。
Cheeseman团队在讨论部分提到了这个可能性,但也强调目前只是推测。RPS19短版本的具体功能还不清楚,两位患者的治疗方案也尚未因此调整。从发现机制到转化应用,中间隔着大量基础研究和临床试验。Ly在采访中用的词是"perhaps one day"——也许有一天。
读基因组的新语法
这项研究的技术细节,对非专业读者可能过于晦涩。但核心信息其实很好理解:我们读基因组的方式,需要升级了。
目前的标准分析流程,很大程度上还在沿用"一个基因一种蛋白"的简化模型。软件预测突变影响时,默认检查的是最长、最经典的蛋白版本;数据库标注功能区域时,优先覆盖的也是这个版本;临床报告解读"意义不明变异"时,很少主动追问"这里会不会有另一个蛋白版本"。
Cheeseman和Ly的工作提示,这个默认设置需要改了。他们开发的分析工具可以系统性地扫描隐藏蛋白版本,评估突变对它们的潜在影响。这类工具如果整合进临床 pipeline,可能把一部分"未解病例"重新分类为"已解释"。
更根本的是观念转变。研究人员和临床医生需要养成新习惯:看到某个基因与疾病相关时,先问一句"这个基因有几种蛋白版本?我的患者突变影响的是哪一种?"这个问题现在没有现成答案,需要查文献、做实验、或者至少保持开放心态——而不是默认"已经知道了这个基因的全部故事"。
这种转变不会一夜完成。Cheeseman本人也承认,他们团队对隐藏蛋白的关注,某种程度上是反潮流的。过去十几年,研究热点转向非编码RNA、表观遗传调控、染色质三维结构,蛋白异构体这个"老话题"相对冷清。但技术一直在进步,现在用质谱和核糖体图谱技术,可以比以前更精确地捕捉细胞里实际在生产的蛋白版本,而不是只预测理论上可能的版本。
那些还没被看见的蛋白
回到开头那个数字:2500万美国罕见病患者,70%没有基因诊断。Cheeseman团队的研究不会一夜之间改变这个比例。但它提供了一个新的搜索方向,以及一种谦逊的态度——我们对基因组的了解,可能比我们以为的少。
这种谦逊在科学史上反复出现。人类基因组计划完成时,我们以为解开了生命密码;结果发现非编码区域比编码区域大得多,功能大多未知。ENCODE项目宣布80%基因组有生化活性时,我们以为功能之谜即将破解;结果"活性"的定义和生物学意义引发激烈争论。每一次以为接近终点,都会发现新的复杂度。
隐藏蛋白版本可能是下一个层次。它们不是基因组计划漏掉的序列——起始密码子就在那里,只是我们的解读框架没有要求去看。它们也不是ENCODE式的生化信号——这些是真正被翻译成实体分子的指令,只是被我们归类为"次要"或"背景噪音"。
Cheeseman和Ly的工作,是把它们从背景噪音中分离出来,证明其中一部分有明确功能、与疾病相关。还有多少隐藏版本等待发现?他们不知道。每个基因平均有几个功能版本?不知道。这些版本之间的功能差异有多大?还是不知道。
但未知本身就是方向。对于那70%的患者,每一个未被解释的病例都是一条线索,指向我们尚未理解的生命机制。RPS19的两个病例只是开始。Cheeseman实验室正在扩大合作网络,希望从更多罕见病患者身上寻找类似模式。Ly说,他们的终极目标是建立一个系统性的框架,让研究人员在面对任何基因时,都能快速评估其隐藏蛋白版本的潜在作用。
一个更复杂的生命图景
如果这项研究的思路被证实具有普遍性,我们对基因与疾病关系的理解将需要整体更新。教科书上的"一个基因一种蛋白一种功能"可能要改成"一个基因多种蛋白,时空特异性表达,突变效应版本依赖"。这对学生记忆更不友好,但可能更接近真相。
对于普通读者,这件事的启示或许更简单:生命比我们以为的更会"偷工减料"——或者说,更会"资源复用"。同一个基因序列,通过微调读取方式,就能产出不同功能的工具。这种经济性是进化的杰作,也是疾病的隐患所在。突变没有变多,但我们对突变的解读维度需要增加。
Cheeseman团队在论文结尾回到了临床希望。更好的诊断、针对性的治疗——这些承诺还很遥远,但路径似乎比过去更清晰了一点。对于那些多年辗转于不同医院、做过无数次基因检测、却始终得不到答案的患者家庭来说,任何新的搜索方向都意味着新的可能。
科学进展往往如此:不是惊天动地的颠覆,而是在既定框架边缘发现裂缝,然后耐心地扩大它,直到新的光透进来。Cheeseman和Ly的工作,就是这样一道裂缝。它指向的地下空间有多大,还需要更多人拿着手电筒下去探。但至少,我们现在知道该往哪走了。
热门跟贴