查看原文
其他

你昨天才做的分析,可能是几年前的结果!

2017-11-02 biobabble

本文转载自《嘉因生物》公众号,已获得授权。


上一次发《科研老黄历》,就想起这篇,还是转载一下,看完又更显得clusterProfiler实在太良心,一直有更新维护。


一般我们都会吐DAVID一脸口水,因为用的人多,因为数据实在太老,虽然最近有更新,但其实也只更了id转换和GO的数据,DAVID大量的数据源是没有更的!!!


这篇文章我上次有分享,说了一句,华大还在用09年开始就不更新的WEGO,有人留言「TMD别黑华大」,然后他自己又删了,对于这种没去了解情况就出来骂人的人,我直接拉黑了。


我一般吐口水也是吐DAVID,为什么说到WEGO还要拉上华大,因为我们实验室在华大做了RNA-SEQ,他们给的报告用的就是WEGO,而恰巧我知道WEGO最后一次更新是09年,这口水我不吐不行。没有证据我是不会乱说的,大家看着办吧,你们的科研,可能落后这个世界好多年!!!




最靠谱的富集分析,超炫的展示方式,TCGA也是他的粉丝【老客户福利】

一文中谈到,clusterProfiler的优势之一是注释最新,大部分工具做KEGG富集分析用的都是2012年的版本,只有clusterProfiler实时抓取KEGG最新版数据做富集分析。



2016年8月,有人专门吐槽各种富集分析工具用的注释有多老,探讨过时的注释对富集分析结果的影响。



3900篇文章中67%用的工具注释版本古老,只用到了当前biological processes和pathway注释资源的26%。其实GO注释每天都在更新,Pathway数据库例如Reactome和PathwayCommons每个季度都在更新。42%的工具超过5年没更新,例如被引用次数超级高的DAVID,没错,就是那个鹤立鸡群的红色bar:




DAVID当时的版本是2010年的,被吐槽后两个月,2016年10月终于更新到目前的版本。





五年来,注释文件发生了哪些变化呢?


Biological process的GO注释term是5年前的2倍,Reactome Pathway的注释term是5年前的1.5倍。



人和小鼠的注释是5年前的2倍,其他模式生物缓慢些,1.3倍。


多数gene参与的pathway数从2010年的10个增加到2016年的16个。



GO注释中有些是计算机自动给出的,叫做电子注释,IEA(inferred from electronic annotations),2009年电子注释IEA占37%,2016年,IEA仅剩14%。也就是说,目前86%的注释都是有实验证据的,比5年前更可靠。



未注释的蛋白从5年前的12.4%降到4.9%,蛋白质功能注释越来越全了。





过时的注释会对富集分析结果造成哪些影响呢?


举个栗子,具体分析一套数据。


紫色是用2016年的注释做富集分析得到显著富集的term数,再看2010年的黄色,呵呵!


用2010年的注释做富集分析,丢掉了好多pathway。只有用2016年的注释才能找出紫色的圆圈。



赶紧看看自己的数据是拿什么年代的注释做的富集分析,是不是该更新了?或许会有更interesting的发现呢!




最后看statQuest用m&m豆讲富集分析原理


https://v.qq.com/txp/iframe/player.html?vid=c05514a8fbl&width=500&height=375&auto=0







嘉因生物公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案


电话:021-61539657

Email:marketing@rainbow-genome.com
地址:上海市杨浦区赤峰路65号同济科技园1号楼611室

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存