打开网易新闻 查看精彩图片

撰文丨啾啾椰

人类基因组中大约有 19,500 个经典蛋白编码基因,这些基因 是 生物医学研究、疾病机制研究和药物开发的基础。但近年来, Ribo -seq 、质谱和免疫肽组学等技术显示,许多传统上被认为不编码蛋白的非经典开放阅读框,也就是ncORFs( non-canonical open reading frames ),实际上可能被翻译,产生 microproteins 、 micropeptides 或 SEPs ( small ORF-encoded peptides )1,2。这些 ncORFs 可以位于主 CDS 上游、内部、下游,也可以存在于 lncRNA 中。它们产生的短肽可能参与疾病、癌症和免疫抗原呈递,尤其在肿瘤免疫治疗中, ncORF -derived HLA-presented peptides 可能成为新的靶点3

然而,检测到翻译信号或短肽,是否足以说明一个 ncORF 是真正的蛋白编码基因?如果标准过于宽松,可能会把短暂存在、低可信度或背景翻译事件误认为新的蛋白编码基因;如果标准过于保守,又可能忽略真实存在且有功能意义的小蛋白。传统蛋白注释体系,如 GENCODE 、 UniProt 和 HUPO-HPP ,对蛋白证据要求较高,而 microproteins 通常长度短、丰度低、保守性弱,常规标准很难完全适用。

近 日,致力于鉴定并注释人类 ncORF 的 TransCODE Consortium 国际合作团队在Nature上发表了题为Expanding the human proteome with microproteins andpeptideins的文章,建立了一个更系统的ncORF蛋白证据评估框架。

打开网易新闻 查看精彩图片

为了验证人类 ncORFs 中有多少能够产生可检测的 peptide 或 microprotein ,作者分析了7,264个由GENCODE支持的ncORFs,并将其与 PeptideAtlas 中的大规模质谱数据进行比对。数据包括常规蛋白消化质谱和 HLA 免疫肽组学。相比传统质谱,HLA数据给出了更多ncORFpeptide证据检测到3,116ncORF-derived peptides,对应1,785ncORFs,占全部ncORFs24.6%

打开网易新闻 查看精彩图片

图 1 : HLA PeptideAtlas 里检测到的 ncORFs .

文章还提出了 ORBL ( ORF relative branch length )方法,用来评估 ncORF 的进化约束。传统方法通常关注氨基酸序列是否保守,例如 PhyloCSF ,但许多 microproteins 很短,且可能快速演化,因此不一定表现出典型蛋白编码基因的氨基酸保守性。 ORBL 关注 ORF 结构本身是否被保留,包括 start codon 、 stop codon 和 reading frame 的开放状态。作者发现,许多 ncORFs 虽然 PhyloCSF 分数不高,但在 ORBL 层面表现出 ORF 结构保守性。

基于这些证据,作者建立了 ncORF 分级框架,综合考虑 Ribo -seq 、传统质谱、 HLA 免疫肽组学、人工检查、进化约束和功能证据。其中 Tier 1A 代表有传统蛋白质组学支持的候选 protein-coding genes 。最初得到 37 个临时 Tier 1A ncORFs ,经过严格人工筛选后保留 15 个候选,其中 3 个已被 GENCODE 注释为蛋白编码基因。对于那些有明确翻译和 peptide 证据,但功能、保守性或常规蛋白证据仍不足以支持其成为经典蛋白编码基因的 ncORFs ,作者提出了 peptidein 概念。

为了进一步探索 peptidein 是否具有功能,作者整合了CRISPR screening数据,筛选具有功能表型的ncORFs。其中一个重点例子是位于 lncRNA OLMALINC ,也称 LINC00263 ,上的 c10riboseqorf92 。这个 ORF 编码一个 123 aa 的 peptidein 。 CRISPR knockout 显示它在大量细胞系中造成细胞增殖或存活缺陷,并且重新表达该 peptidein 可以 补偿 细胞缺陷,说明相关功能很可能来自这个 ORF 编码产物,而不只是 lncRNA 分子本身。

打开网易新闻 查看精彩图片

图 2 :重新表达 c10riboseqorf92 可以补偿生殖缺陷。

总体而言,这篇文章为microproteinspeptideins的研究建立了一个更系统的注释框架。对于非编码RNA研究,它也再次提醒,一些lncRNA的功能可能来自其隐藏的短ORF编码产物。

原文链接:https://www.nature.com/articles/s41586-026-10459-x

制版人: 十一

参考文献

1. van Heesch , S. et al. The translational landscape of the human heart.Cell178, 242–260 (2019).

2. Ouspenskaia , T. et al. Unannotated proteins expand the MHC-I-restricted immunopeptidome in cancer.Nat.Biotechnol.40, 209–217 (2022).

3. Ely, Z. A. et al. Pancreatic cancer–restricted cryptic antigens are targets for T cell recognition.Science388, eadk3487 (2025).

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片


战略合作伙伴

(*排名不分先后)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

打开网易新闻 查看精彩图片

点击主页推荐活动

关注更多最新活动!

打开网易新闻 查看精彩图片