耳聋是最常见的出生缺陷之一,其病因复杂,遗传因素占主导地位,目前已发现超过200个耳聋相关基因。然而,基因型与表型的强异质性、跨物种模型的不一致性,以及海量遗传数据的分散性,阻碍了致病机制解析和临床诊断效率的提升。如何整合多源数据提升基因诊断数据解读能力,成为领域内亟待攻克的技术瓶颈。

为应对这一挑战,四川华西医院耳鼻咽喉头颈外科袁慧军团队联合多学科力量,开发了全球首个综合性遗传性耳聋数据库知识库——Genetic Deafness Commons(GDC),相关研究成果于2025年3月16日发表在Advanced Science,题为GDC: Integration of Multi-Omic and Phenotypic Resources to Unravel the Genetic Pathogenesis of Hearing LossGDC整合了51个国际公共数据库及中国CDGC大型耳聋队列22,125例患者的数据,涵盖201个耳聋相关基因、598万个变异信息,并首次引入小鼠、恒河猴与人类耳蜗的转录组数据。通过统一的数据标准与可视化界面,GDC为科研与临床团队提供了一个集基因查询、变异注释及跨物种分析于一体的“一站式”资源服务平台。

基于GDC整合的海量数据,研究团队取得多项重要发现:

1. 优化ACMG分子诊断框架的循证医学支持体系

基于GDC多组学数据全景解析,系统性为ACMG遗传性听力损失指南中24项证据模型中的17项提供数据支撑,显著增强致病/疑似致病变异判定的证据强度,为临床遗传解读提供高置信度分子注释基准。

2. 构建跨物种耳蜗表达全景图谱

建立非人灵长类(恒河猴)耳蜗转录组数据库,通过跨物种比较基因组学(人类-恒河猴-小鼠)鉴定具有保守表达模式的听觉功能核心基因网络,揭示物种间的转录调控共性与特异性,为听觉系统的转化医学研究提供精准模型构建策略。

3. 应用GDSRF新算法鉴定致病新基因

集成多组学层面的表达量、通路拓扑结构及表型关联信息,构建GDSRF(Gene Discovery via SMOTE-Random Forest)预测模型,突破传统动物模型依赖,筛选出18个潜在高置信度HL候选基因,其中TBX2经患者队列验证,确认为全新的耳聋致病基因,彰显人工智能在疾病遗传学领域的变革性潜力。

4. 解析人类-小鼠表型的跨物种差异性

定量解析人类耳聋基因在小鼠模型中的表型缺失现象,发现35%的基因未能在小鼠中复现听力损失,且其表型外显率与蛋白序列同源性或基因表达丰度无显著相关性。功能富集分析揭示差异基因高度聚焦于离子跨膜转运、RNA聚合酶介导的转录调控等关键生物学通路,提示物种间听觉功能补偿网络的复杂性及现有模型体系的局限性。

5. 揭示转录因子DNA结合域新型突变热点及其分子病理机制

通过全基因组蛋白质结构域扫描,在PAX3、SOX10等转录因子家族中识别6个既往未报道的致病突变富集区,解析其三维结构构象对DNA结合亲和力的影响,提供基于结构生物学的致病性判定依据,助力精准变异解读体系的优化升级。

综上所述,GDC数据库广泛汇聚海量公共及自有数据,为听力学及聋病领域的研究人员提供了宝贵的资源。团队计划进一步扩展数据库功能,纳入更多的耳聋相关基因和变异位点,增加表观调控数据、构建知识图谱,并开发AI驱动的自动化查询与挖掘工具。这些进展将加速新致病基因的发现,推动个性化治疗方案设计,最终实现“从基因变异到临床干预”的闭环。

依托项目介绍:

CDGC大型耳聋队列:袁慧军教授团队联合国内听觉研究领域的 50 多个基础研究及临床专业团队于 2013年9月成立了“中国遗传性耳聋基因研究战略联盟”(CDGC),组织开展了全国范围的大型耳聋队列研究,这是迄今为止全球最大规模的孟德尔遗传性疾病队列研究,为听力学与聋病研究提供了不可复制的宝贵数据资源。联盟团队组织采集了覆盖中国内地全部31个省市自治区、41个民族的24,282例耳聋患者样本及地域匹配的7,205例正常对照样本,并完成了所有样本的基因检测与诊断工作。

基于耳聋的发病年龄、病程发展及相应的致病机制等信息,对鉴定的大量耳聋基因变异的致病性进行了分析、判定和审校,为听力损失相关基因变异的致病性解读提供了一个综合全面的知识参考平台,可显著提升耳聋临床基因诊断效率与准确率。

GSRD-100KWCH罕见病队列:2020年7月,研究团队在四川大学华西医院启动了“十万例中国罕见病患者全基因组测序计划(GSRD-100KWCH)”项目,针对临床各学科疑难罕见病例及基因诊断未明的耳聋病例开展大规模的全基因组测序,旨在通过系统性整合大规模基因组学数据,挖掘罕见病新致病变异、基因及分子机制,推动精准诊断技术革新与个体化治疗策略优化。

截至2025年3月,GSRD-100KWCH项目累计纳入了覆盖中国32个省市自治区的35,281例罕见病患者及11,584例自然人群对照的样本,样本来自 15个不同的专科,覆盖339种罕见病,已积累了超过10 PB的测序和初步分析数据。此外,课题组通过自建40万例容量的标准化生物样本库,搭建了自动化核酸提取-建库-测序全流程流水线,并开发了遗传资源管理系统、表型采集平台及基因组实验室管理系统,实现了临床数据电子化与标准化整合,构建了覆盖临床诊疗全周期的GSRD临床信息数据库,为系统解析全基因组范围内的变异致病性提供了宝贵的数据资源。此外,GSRD-100KWCH项目正在建设医学基因组数据分析框架和临床智能决策支持系统,以增强对遗传数据的分析和解释。

原文链接http://doi.org/10.1002/advs.202408891

制版人:十一

BioArt

Med

Plants

人才招聘

会议资讯

学术合作组织

(*排名不分先后)

战略合作伙伴

(*排名不分先后)

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。