TCGA RNAseq数据中FPKM与TPM转换介绍|163

在新版数据中TCGA的RNAseq数据主要提供了三种数据下载，FPKM，FPKM-UQ,Counts，如果要用edgR等筛选差异的话会下载使用Counts数据，但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差异基因并不理想，细思主要有两方面原因：

一、肿瘤数据本身异质性很高

二、正常样本严重偏少

基于此笔者几乎很少使用edgR等软件来筛选差异了，那么就很少下载Counts数据了，所以大多数情况下都是用RPKM，但是RPKM数据本身也是饱受诟病，像cbioportal使用的是RSEM软件做的定量即TPM，在老版TCGA中也可以直接下载到这些数据，那么新版如何得到这样的数据呢，简单的办法是从FPKM转TPM

怎么转？

首先我们需要了解一下FPKM和TPM的公式

FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千个碱基的转录每百万映射读取的fragments

TPM：TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千个碱基的转录每百万映射读取的Transcripts

他们的计算公式如下：

FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))

total exon reads：某个样本mapping到特定基因的外显子上的所有的reads

mapped reads (Millions) :某个样本的所有reads总和

exon length(KB)：某个基因的长度（外显子的长度的总和，以KB为单位）

TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)

Ni：mapping到基因i上的read数； Li：基因i的外显子长度的总和;m：为所有基因的总数

从以上公式我们可以进一步推导如下：