查看原文
其他

GSEA分析是个什么鬼?(上)

2016-10-26 小张 小张聊科研

有朋友在后台留言让介绍GSEA分析,那么我们今天就来介绍GSEA分析。

GSEA

基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用预定义的基因集(通常来自功能注释或先前实验的结果),将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。

从题目中我们看到GSEA分析有三个特点:

  1. 分析的基因集合而不是单个基因;

  2. 将基因与预定义的基因集进行比较;

  3. 富集分析;


看到这里大家可能想起来了RNA-seq或者芯片分析中最为常见的两种方法:GO(Gene Ontology)和KEGG pathway分析,它们有些相似但又不同。

GSEA的优势

一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。

目前,市面上绝大多数公司在求得差异基因列表后,都会在此之上提供给客户Pathway 以及GO 富集分析,毕竟给予成百上千的差异表达基因以简洁、明晰的生物学功能的概括,才是进行高通量生物学表达谱实验的主要目的。然而,在实际应用于生物学高通量数据时,它们都有一个重大的缺陷:对于差异基因检出的阈值,异常的敏感,客户需要给出差异基因的一个明确的定义(阈值),例如abs(FC) ≧2.0 & p ≦ 0.05。这种一刀切的阈值,对于发现真正的生物学效应,许多时候是一种障碍,因为实际通过芯片观测到的RNA 表达变化,往往是层层的负反馈调控后的结果,并且不同组织对于表达差异的敏感度是不同的:在神经递质系统内,一个1.2 倍的表达差异即可能产生及其显著的效应。


GSEA富集过程包括三步骤:

1. 计算富集分数(Enrichment Score);

2. 估计富集分数的显著性水平;

3. 矫正多重假设检验;


GSEA的具体原理就不展开了,原理在PNAS文章Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. Epub 2005 Sep 30. (下载链接: https://pan.baidu.com/s/1qYeXLBu 密码: euww)


在分析前我们先看MSigDB数据库,MSigDBMolecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb


包括H和C1-C7八个系列(Collection),每个系列内容为:

H: hallmark gene sets (效应)特征基因集合,共50组;

比如细胞凋亡特征基因集:



C1: positional gene sets 位置基因集合,根据染色体位置,共326个;


C2: curated gene sets:(专家)共识基因集合,基于通路、文献等:

这部分包括我们熟悉的KEGG信号通路等:



C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分



C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;



C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)



C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据


C7: immunologic signatures: 免疫相关基因集合。



我们可以看到MSigDB数据收录的信息还是非常全面的,这个数据库可以单独使用和查询,我们可以根据各种条件导出一系列感兴趣的gene set。


好了,介绍完MSigDB数据库的基本信息后,我们在(下)篇继续。




That's all. Thank you!

长按二维码识别关注小张聊科研,或者搜索微信号xzlky2015




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存