基因组学生物信息分析主要内容

1.重复样本相关性分析

生物学重复是任何生物学实验所必须的。

生物学重复主要有两个用途:

1)证明所涉及的生物学实验操作是可以重复的且变异不大;

2)确保后续的差异基因分析得到更可靠的结果。

样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1表明样品之间表达模式的相似度越高。Encode计划建议皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下)。具体的项目操作中,我们要求R2至少要大于0.8,否则需要对样品做出合适的解释,或者重新进行实验,样品间相关性热图如图所示。

samplescorrelation-heatmap2

图 样品间基因表达相关性热图

2.显著性差异表达基因筛选

利用散点图和火山图展示基因差异表达的整体情况。散点图可以整体展示差异表达基因的分布情况,火山图从差异倍数和显著水平两个方面对基因差异表达情况进行展示。

一般而言,显著性差异表达基因筛选的标准为:|log2Ratio|≥ 1 且qvalue≤0.05。

条件间的差异表达基因火山图如下图所示。有显著性差异表达的基因用红色点(上调)和绿色点(下调)表示,无显著性差异表达的基因用蓝色点表示;横坐标代表基因在不同样本中表达倍数变化;纵坐标代表基因表达量变化差异的统计学显著性。

ncvsv-volcano2

差异表达基因火山图

3.差异表达基因表达模式聚类分析

表达模式相似的基因通常具有相似的功能。我们利用R语言包pheatmap,以欧氏距离为距离距阵计算公式,对基因和实验条件同时进行等级聚类分析,且通过热图对等级聚类结果进行展示。等级聚类结果如下图所示,每列代表一个实验条件(如差异比较组或者一个样品),每行代表一个基因的log2Ratio值或者log10(FPKM+0.01),不同表达变化倍数或表达量用不同颜色表示。

samples-heatmap2

差异表达基因表达模式聚类热图

4.生物信息学分析

4.1差异表达基因GO功能分析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontologies(本体),分别描述基因的分子功能(molecular function)、细胞成分(cellular component)和 生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

GO功能显著性富集分析给出与基因组背景相比,在差异表达基因中显著富集的GO功能条目,从而给出差异表达基因与哪些生物学功能显著相关。该分析首先把所有差异表达基因向Gene Ontology数据库(http://www.geneontology.org/)的各个term映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目。

我们利用 GO TermFinder 进行差异表达基因 GO 功能富集分析,其原理为:根据挑选出的差异基因计算这些差异基因同 GO 分类中某几个特定的分支的超几何分布关系,通过多重假设验证得到一个特定 p-value 值,p 值越小表示差异基因在该 GO 中越富集。

ncvsv-go

GO 注释差异表达基因数目统计

图中,纵坐标为富集的GO term,横坐标为该term中显著性差异基因个数。不同颜色用来区分生物过程 (biological process)、细胞成分 (cellular component)和分子功能(molecular function)。

4.2差异表达基因KEGG Pathway功能分析

在生物体内,不同基因相互协调行使其生物学功能,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库,Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。

一般而言,Corrected P-value≤0.05表示差异表达基因在KEGG Pathway通路中显著富集。

我们用散点图展示KEGG Pathway富集分析结果中最显著性富集的前20条pathway条目,如下图所示。KEGG Pathway富集程度通过RichFactor、Qvalue和富集到此通路上的基因个数来衡量。其中,RichFactor指该pathway中富集到的差异基因个数与注释到该pathway基因个数的比值。RichFactor越大,表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue,Qvalue的取值范围为[0,1],越接近于零,表示富集越显著。纵轴表示pathway名称,横轴表示RichFactor,点的大小表示此pathway中差异表达基因个数多少,而点的颜色对应于不同的Qvalue范围。

ncvsv-path-enrichment2

差异表达基因KEGG Pathway功能富集散点图

4.3蛋白互作网络分析

利用STRING蛋白质互作数据库(http://string-db.org/)以及 R 语言包 STRINGdb,我们进行差异表达基因蛋白互作网络分析。

蛋白互作网络如下图所示,实体圆圈外面的红色光圈表示该蛋白基因表达上调,绿色光圈表示该蛋白基因表达下调。图标题处,protein表示关联蛋白数,interactions表示有关联的蛋白互作网络数,expected interactions表示期待的蛋白互作网络数。

ncvsv-network2

差异表达基因蛋白互作网络图

4.4可变剪接分析

基于TopHat+Cufflinks的分析结果,我们利用ASprofile软件对每个样品的可变剪接事件进行分类和表达量计算。ASprofile中的可变剪接事件分类如图所示。

asprofile

可变剪接事·件分类图

4.5可变剪接事件统计

针对每个样本的可变剪接事件,我们以柱状图的形式进行展示,如图所示。纵轴为可变剪接事件的分类缩写,横轴为该种事件下可变剪接的数量的log10值,不同样品用不同子图和颜色区分。

samples_as2

可变剪接事件统计柱状图