蛋白质组学生物信息分析主要内容

1.肽段长度分布

每种质谱仪都有自身的测量范围,因此可鉴定到的肽段也有一定的长度限制。肽段过长或过短都无法在质谱仪中被检测到。如果鉴定结果中肽段普遍过低或普遍过高,则可能是蛋白酶选用不恰当。

peptides-length

2.蛋白定量比值直方分布分析

在相对定量时,如果同一个蛋白质的量在两个样品间没有显著的变化,那么其蛋白质丰度比接近于1。当蛋白的丰度比即差异倍数达到1.5倍以上(含1.5倍),且/或经统计检验其P-value值≤0.05时,视该蛋白为不同样品间的差异蛋白。对每个蛋白质差异倍数以2为底取对数后作出分布如图。理论上对数化的比值分布服从标准正态分布。

frequency-distribution

3.火山图

利用T检验分析出两样本间显著差异表达的蛋白后,以两组样本定量比值(FC=fold change)求取log10对数为横坐标,以T检验显著性检验P值的负对数-log10(P-value)为纵坐标,即可得火山图(Volcano Plot),利用一定的筛选条件(如大于1.5倍变化或/且P≤0.05),可以筛选出显著差异表达的蛋白,进行后续研究。火山图中的红色、绿色圆点表示具有显著性差异的蛋白质(满足FC≤0.667 & P≤0.05-绿色,or FC≥1.5 & P≤0.05-红色),黑色圆点为无显著性变化的蛋白质(0.667<FC<1.5 or P>0.05)。

volcano-plot

4.样本表达模式聚类

聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法。聚类分析不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,发现对象之间的相似度。我们利用多样品间表达模式聚类分析观察不同蛋白在不同样品间比较时的上调、下调情况。

heatmap

5.GO功能注释及富集分析

Gene Ontology(简称GO)是生物信息领域中一个极为重要的方法和工具,通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白质在细胞内所扮演的角色,从而来全面描述生物体中基因和基因产物的属性。GO总共有三个本体(Ontology),分别描述基因的分子功能(Molecular Function)、所处的细胞位置(Cellular Component)、参与的生物过程(Biological Process);我们针对鉴定出的总蛋白及差异蛋白进行GO功能注释分析,详细给蛋白具体的GO功能注释,并可根据需要提供个性化的GO Level 2统计分析。

go-bp
go-2-class-bar

GO功能富集分析:是针对差异表达蛋白进行的功能注释,确定差异表达蛋白质显著富集的GO功能条目,从而得知生物学处理对哪些功能、生物学过程有显著影响。

go-enrichment

6.KEGG功能注释及富集分析

在生物体内,不同蛋白相互协调行使其生物学行为,基于Pathway的分析有助于更进一步了解其生物学功能。KEGG是有关Pathway的主要公共数据库(http://www.kegg.jp/kegg/pathway.html),通过Pathway分析能确定蛋白质参与的最主要生化代谢途径和信号转导途径。

我们针对鉴定出的总蛋白及差异蛋白进行KEGG功能注释分析,详细给蛋白具体的KEGG功能注释,并提供相关的KEGG统计分析。

kegg-class

KEGG通路富集分析方法与GO富集分析相似,即以KEGG通路为单位,确定在差异表达蛋白质中显著性富集的通路,从而确定差异表达蛋白质参与的最主要的代谢和信号转导途径。

kegg-enrichment
ko0466

7.COG分析

COG(Cluster of Orthologous Groups of proteins 蛋白相邻类的聚簇)是对蛋白质进行直系同源分类的数据库。我们将鉴定到的总蛋白及差异蛋白与COG/KOG数据库(原核生物使用COG数据库,真核生物使用KOG数据库)进行比对,预测这些蛋白可能的功能并对其做功能分类统计。

cog

1.蛋白相互作用

通过查询蛋白质相互作用数据库(如string)和相关文献,确定鉴定到的蛋白质或差异表达蛋白质之间相互作用和与之直接作用的其它蛋白质。

string
string2

2.数据交叠分析(韦恩图)

我们在进行数据分析的时候,大部分时间都在使用趋势分析、比较分析、细分分析这三类方法,但其实还有一个方法我们也会经常使用——交叉分析,尤其是在排查数据异常的问题时,交叉分析就能展现其强大的威力。

venn
venn2

3.主成分分析

在大规模数据的分析工作中,由于组织样本例数远远小于所观察基因个数(G>>N),如果直接采用前述聚类分析可能产生较大误差,故需要对聚类算法进行改进。目前已经提出很多改进的聚类方法,其中较为流行的方法是应用主成分分析方法对数据进行分析。主成分分析的目的是要对多变量数据矩阵进行最佳综合简化。使用的方法是寻找这些变量的线性组合——称之为“主 成 分”( principal component),使这些主成分间不相关。

pls_score

4.差异蛋白动态分析

时间动态分析适用于疾病不同进程中、用药后不同时间段体内功能蛋白的预测;同时在农业领域中研究在植物发育、抗逆过程中起主要作用的蛋白质。通过这种分析,有利于发现更精准的诊断标记物、用药靶点。

all-three-cluster-1
all-three-cluster-2

5.其他

根据客户的需求,个性化定制分析方案。

+ 常规分析

1.肽段长度分布

每种质谱仪都有自身的测量范围,因此可鉴定到的肽段也有一定的长度限制。肽段过长或过短都无法在质谱仪中被检测到。如果鉴定结果中肽段普遍过低或普遍过高,则可能是蛋白酶选用不恰当。

peptides-length

2.蛋白定量比值直方分布分析

在相对定量时,如果同一个蛋白质的量在两个样品间没有显著的变化,那么其蛋白质丰度比接近于1。当蛋白的丰度比即差异倍数达到1.5倍以上(含1.5倍),且/或经统计检验其P-value值≤0.05时,视该蛋白为不同样品间的差异蛋白。对每个蛋白质差异倍数以2为底取对数后作出分布如图。理论上对数化的比值分布服从标准正态分布。

frequency-distribution

3.火山图

利用T检验分析出两样本间显著差异表达的蛋白后,以两组样本定量比值(FC=fold change)求取log10对数为横坐标,以T检验显著性检验P值的负对数-log10(P-value)为纵坐标,即可得火山图(Volcano Plot),利用一定的筛选条件(如大于1.5倍变化或/且P≤0.05),可以筛选出显著差异表达的蛋白,进行后续研究。火山图中的红色、绿色圆点表示具有显著性差异的蛋白质(满足FC≤0.667 & P≤0.05-绿色,or FC≥1.5 & P≤0.05-红色),黑色圆点为无显著性变化的蛋白质(0.667<FC<1.5 or P>0.05)。

volcano-plot

4.样本表达模式聚类

聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法。聚类分析不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,发现对象之间的相似度。我们利用多样品间表达模式聚类分析观察不同蛋白在不同样品间比较时的上调、下调情况。

heatmap

5.GO功能注释及富集分析

Gene Ontology(简称GO)是生物信息领域中一个极为重要的方法和工具,通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白质在细胞内所扮演的角色,从而来全面描述生物体中基因和基因产物的属性。GO总共有三个本体(Ontology),分别描述基因的分子功能(Molecular Function)、所处的细胞位置(Cellular Component)、参与的生物过程(Biological Process);我们针对鉴定出的总蛋白及差异蛋白进行GO功能注释分析,详细给蛋白具体的GO功能注释,并可根据需要提供个性化的GO Level 2统计分析。

go-bp
go-2-class-bar

GO功能富集分析:是针对差异表达蛋白进行的功能注释,确定差异表达蛋白质显著富集的GO功能条目,从而得知生物学处理对哪些功能、生物学过程有显著影响。

go-enrichment

6.KEGG功能注释及富集分析

在生物体内,不同蛋白相互协调行使其生物学行为,基于Pathway的分析有助于更进一步了解其生物学功能。KEGG是有关Pathway的主要公共数据库(http://www.kegg.jp/kegg/pathway.html),通过Pathway分析能确定蛋白质参与的最主要生化代谢途径和信号转导途径。

我们针对鉴定出的总蛋白及差异蛋白进行KEGG功能注释分析,详细给蛋白具体的KEGG功能注释,并提供相关的KEGG统计分析。

kegg-class

KEGG通路富集分析方法与GO富集分析相似,即以KEGG通路为单位,确定在差异表达蛋白质中显著性富集的通路,从而确定差异表达蛋白质参与的最主要的代谢和信号转导途径。

kegg-enrichment
ko0466

7.COG分析

COG(Cluster of Orthologous Groups of proteins 蛋白相邻类的聚簇)是对蛋白质进行直系同源分类的数据库。我们将鉴定到的总蛋白及差异蛋白与COG/KOG数据库(原核生物使用COG数据库,真核生物使用KOG数据库)进行比对,预测这些蛋白可能的功能并对其做功能分类统计。

cog
+ 个性化分析

1.蛋白相互作用

通过查询蛋白质相互作用数据库(如string)和相关文献,确定鉴定到的蛋白质或差异表达蛋白质之间相互作用和与之直接作用的其它蛋白质。

string
string2

2.数据交叠分析(韦恩图)

我们在进行数据分析的时候,大部分时间都在使用趋势分析、比较分析、细分分析这三类方法,但其实还有一个方法我们也会经常使用——交叉分析,尤其是在排查数据异常的问题时,交叉分析就能展现其强大的威力。

venn
venn2

3.主成分分析

在大规模数据的分析工作中,由于组织样本例数远远小于所观察基因个数(G>>N),如果直接采用前述聚类分析可能产生较大误差,故需要对聚类算法进行改进。目前已经提出很多改进的聚类方法,其中较为流行的方法是应用主成分分析方法对数据进行分析。主成分分析的目的是要对多变量数据矩阵进行最佳综合简化。使用的方法是寻找这些变量的线性组合——称之为“主 成 分”( principal component),使这些主成分间不相关。

pls_score

4.差异蛋白动态分析

时间动态分析适用于疾病不同进程中、用药后不同时间段体内功能蛋白的预测;同时在农业领域中研究在植物发育、抗逆过程中起主要作用的蛋白质。通过这种分析,有利于发现更精准的诊断标记物、用药靶点。

all-three-cluster-1
all-three-cluster-2

5.其他

根据客户的需求,个性化定制分析方案。