在新版数据中TCGA的RNAseq数据主要提供了三种数据下载,FPKM,FPKM-UQ,Counts,如果要用edgR等筛选差异的话会下载使用Counts数据,但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差异基因并不理想,细思主要有两方面原因:

一、肿瘤数据本身异质性很高

二、正常样本严重偏少

基于此笔者几乎很少使用edgR等软件来筛选差异了,那么就很少下载Counts数据了,所以大多数情况下都是用RPKM,但是RPKM数据本身也是饱受诟病,像cbioportal使用的是RSEM软件做的定量即TPM,在老版TCGA中也可以直接下载到这些数据,那么新版如何得到这样的数据呢,简单的办法是从FPKM转TPM

怎么转?

首先我们需要了解一下FPKM和TPM的公式

FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千个碱基的转录每百万映射读取的fragments

TPM:TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千个碱基的转录每百万映射读取的Transcripts

他们的计算公式如下:

FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))

total exon reads:某个样本mapping到特定基因的外显子上的所有的reads

mapped reads (Millions) :某个样本的所有reads总和

exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)

TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)

Ni:mapping到基因i上的read数; Li:基因i的外显子长度的总和;m:为所有基因的总数

从以上公式我们可以进一步推导如下:

1、FPKMi*(mapped reads (Millions)= total exon reads/ (mapped reads (Millions) * exon length(KB))

2、total exon reads/ (mapped reads (Millions) * exon length(KB))=(Ni/Li)

3、FPKMi*(mapped reads (Millions)=(Ni/Li)

4、TPMi=FPKMi*(mapped reads (Millions)*1000000/(N0/L0+……..+ Nm/Lm)

5、TPMi=FPKMi*(mapped reads (Millions)*1000000/(FPKM0*(mapped reads (Millions)+……..+ FPKMm*(mapped reads (Millions))

6、TPMi=FPKMi*1000000/(FPKM0+……..+ FPKMm)

最终我们得到了TPM和FPKM的转换公公式,从公式里可以看到TPM就是等于该基因的FPKM占所有基因的FPKM的总和的比例乘以一百万,那么值得注意的是每个样本所有基因的TPM加和就等于一百万了,这很类似样本间标准化

最后你下载的TCGA FPKM数据转换TPM就不会懵逼了吧

参考文献:https://academic.oup.com/bioinformatics/article/26/4/493/243395/RNA-Seq-gene-expression-estimation-with-read