功能数据库专题-GSEA

Original OMG-子鑫生信菜鸟团 2020-02-03

作为一个医学僧背景的生信菜鸟，长期在大神们推荐的各种入门学习方法中摇摆不定，一会儿R最基础，一会儿Python更专业，可是通过背诵内外妇儿毕业的鄙人一到自己写代码就犯怵，code跑明白了恐怕都要毕业了吧。今天就来安利一款不跑代码也可以发SCI（完全干实验）的神器——GSEA :)

1.什么是GSEA？

基因集合富集分析（Gene Set Enrichment Analysis, GSEA），是麻省理工学院和哈佛大学的broad institute 研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具，免费注册后即可进行下载(http://www.broadinstitute.org/gsea/downloads.jsp)和更新。该方法上显著富集。根据已有的对基因的定位、功能、生物学意义等知识的基础上，首先构建了一个分子标签数据库，数据库中包含了多个功能基因集。通过分析基因表达数据，得到表达状况是否在某种功能上显著富集。详细内容可以参考原文

[1] https://www.ncbi.nlm.nih.gov/pubmed/?term=Proc+Natl+Acad+Sci+U+S+A.+2005+Oct+25%3B102(43)%3A15545-50Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. PNAS 2005 Oct 25;102(43):15545-50

听上去这个GSEA和GO、KEGG很像，但其实是有本质区别的。常见的转录组高通量分析(Microarray&RNA-seq)都是通过对差异比较之后的表达矩阵设定阈值，例如fold change ≧ 2.0 & P ≦ 0.05来获取差异基因，之后根据这个基因列表进行GO和KEGG富集分析。这容易遗漏部分差异表达不显著却有重要生物学意义的基因，忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值，算法会根据实际数据的整体趋势，为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法，即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析，从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来，使得研究者们能够更轻松、更合理地解读芯片结果。

2. 如何进行GSEA分析？

GSEA可以进行线上线下两种方法，但是都要基于后台数据库MSigDB（Molecular Signatures Database），数据库中定义了已知的标签基因集合（如下图）可以登录数据库网站http://software.broadinstitute.org/gsea/msigdb或相关介绍点击这里。如果要在线下进行分析，需要下载感兴趣的基因集合（可以下载全部8个clusters，但是最好分开运行，否则PC可能会卡死），另外GSEA研发团队会根据组学知识的发展不断修改和扩展数据库中的基因集合，建议童鞋们采取调取后台数据库的在线分析方法。

操作过程还是比较简单的（完全不需要敲代码），当下载安装好软件后（需要java支持），运行GSEA主要包含文件准备和参数设定几个步骤：

(1)准备表达文件；

(2)准备表型文件（说明文件）；

(3)选择研究的目标cluster；

(4)参数设置*；

具体操作可以参考相关介绍点击这里（步骤很详细），在这里就不多做赘述，关于参数设置我觉得要必要多说明一下，其中Required fields中Number of permutations理论值在10-1000，建议设置在100-500之间，太低置信度不高，太高电脑会卡死；Basic fields中Max/Min一般设置为500/15；另外Advanced fields中还有一个输出返回值（Plot graphs for the top...）默认是20，这个调整tricky一些，它关系到生成的列表中每一项是否可以查看详情，往往有意义的结果是超过20个的，就需要我们设置更高的数值，但是如果每一次运行都设置很高的话，结果文件包占用空间会很大，造成浪费还影响判读，建议先按默认值或调整为50，结果全部拿到后，按照分析需求再做调整重新run一次。

3. GSEA的结果判读

结果detail打开会有一个类似下图的表格，我们主要关注这三个部分：

1) 标准化富集分数（NES）；

2) 标准化显著性水平（NOM p-val）；

3) 矫正多重假设检验（FDR q-val）；

一般我们认为NES绝对值≧ 1.0，NOM p-val ≦ 0.05，FDR q-val ≦ 0.25是有意义的基因集合，当然也要结合具体情况具体分析。

4. GSEA在研究中的应用

同学们看到这里不禁会想：现在知道什么是GSEA了，也学会了分析流程，不过这个真的能帮助我们快速发文章么？当然可以！这里给大家推广一篇文章，完全的干分析不下实验室，结果一半以上来自GSEA。【原文请点击末尾的阅读原文】

[2] https://link.springer.com/article/10.1007%2Fs10549-014-3172-7High GINS2 transcript level predicts poor prognosis and correlates with high histological grade and endocrine therapy resistance through mammary cancer stem cells in breast cancer patients. Breast Cancer Res Treat. 2014 Nov;148(2):423-36

这篇文章通过将GSEA与生存分析、meta分析等方法结合，证明了GINS2分子的高表达与乳腺癌预后（复发和转移）以及耐药等密切相关，从编辑对文章的处理时间不难看出，editor对这篇文章十分看好，投稿三天后就欣然接收，不得不说GSEA在帮助文章接收和发表中起了很大的作用哈！

上图是与疾病复发的关系，下图是与肿瘤分级和干细胞性的分析

图很多，这里就不一一列举了。总结一下GSEA的优点就是：方法有创新、分析高速高效、支持多种平台数据（TCGA等数据库中的RNA-seq表达数据一样适用哦）、窗口界面友好简单，非常适合生物医学背景的研究者使用

还有更多文章，请移步公众号阅读

如果你生信基本技能已经入门，需要提高自己，请关注上面的生信技能树，看我们是如何完善生信技能，成为一个生信全栈工程师。

如果你是初学者，请关注下面的生信菜鸟团，了解生信基础名词，概念，扎实的打好基础，争取早日入门。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？