生信分析和数据挖掘,无论是GENT2、GEPIA差异表达平台,还是TISIDB、TIMER免疫浸润平台,抑或是K-M Plotter、PrognoScan生存分析平台,都无需R编写代码,容易上手。在线平台的数据分析虽然简单,但体现了生信分析的思路,适合小白入门!高段位的生信分析,R语言是基础。我们以GEO数据处理展开进阶教程的分享。
在一系列的生信分析和数据挖掘过程中,差异分析往往是第一步,|FoldChange| >2,p<0.05是我们做分析想要的结果。即使是用R 处理GEO、TCGA和CCLE等平台的数据做分析,甚至是用R 处理自测芯片或测序的数据做分析,没有差异也是枉然。
其实,很多数据库都可以做差异分析,只是侧重点不同。 我们借助AQP9与肾透明细胞癌的关系,用在线工具和R两种方式展示差异表达。
GEPIA的数据源于GTEx和TCGA数据库RNA_Seq的数据,以箱线图展示。根据分析结果,AQP9在肾透明细胞癌中的表达升高,但并不显著,这可能是由于其筛选标准是 |Log2FC| >1, p <0.01(而不是0.05)造成的。
UALCAN的数据源于TCGA数据库RNA_Seq的数据,以箱线图展示,p value一般会给出具体数值,配色也很惊艳。UALCAN中的数据是处理好的,原始数据可下载。
CAMOIP的数据主要来自TCGA,可用于分析ICI-Treated和TCGA临床队列的表达数据。通过该数据库,可以探索TCGA和ICI-Treated中基因表达的差异。此处,我们采用TCGA Cohort的数据展示KIRC患者中AQP9与相关基因的表达情况。
当然,还有其他的在线分析平台,用于分析AQP9在肾透明细胞癌KIRC的表达差异,如GENT2、KM-Plotter、TIMER、CCLE等。这部分内容,我们不再做更多介绍,本次以R下载和处理展示GEO数据为主。
在论文Fig1中,作者通过TCGA、GEO和HPA数据库的在线数据,从转录水平和蛋白水平展示AQP9在肾透明细胞癌和癌旁组织中的表达差异。我们在分析肾透明细胞癌时,可以选择同样的数据集;在分析其他肿瘤类型时,可以选择类似的展示方式。
我们以GSE15111的数据为例复现,从数据下载、数据分组,到差异可视化展示。
write.table(allLimma,file="GSE15111_limmaTab.txt",sep="\t",quote=F,col.names=F)上述为常规操作,下载数据,数据标准化,分组和差异分析。接下来绘制火山图和热图。
labs(title = 'Volcano', x = '-Log10(adj.P.Val)', y = 'LogFC')
fontsize = 7)
最后,我们需要提取AQP9在肿瘤和癌旁的分组及表达信息,然后用ggplot2()绘图即可,绘图的类型包括箱线图、小提琴图和散点图等,展示方式是可以自己选择的。
theme_bw()
geom_violin()
geom_dotplot(binaxis='y', stackdir='center')
上述绘图再加上p值或者优化即可用于文章发表。一起学习,共同成长,遇见更好的自己!
热门跟贴