查看原文
其他

告诉你文献聚类分析的神器 1

2015-12-18 右哉 实验万事屋

温馨提示:请点击标题下方蓝色“实验万事屋”,或者点击下面的指纹,添加关注后,发“”可以查看我们之前的文章。


我叫林平之,是莫愁师姐的师弟。文献的数据就是这样,即使给了你一堆东西,你也不知道应该如何下手。(特别是要挖数据写标书的时候,不知道就看这里)文献里有辣么多关键词,就像是芯片一样,芯片中两个基因一旦有共表达趋势,那就可能有他们的相关性。文献中也是这样,某个基因和某种疾病或者某种药物共同出现的频率越高,那它们之间肯定应该有着某种联系。这就是神师兄教我的第一个数据库,所分析的东西。


这个数据库是P××××数据库(上次说过应用了呢),虽然和PubMed有关,但第一个P,并不是PubMed的意思。因为一次两次的讲不完,所以还是继续打码,等把这个数据库讲完再说吧。


所谓文字的挖掘,就是把所有相关文献中摘要的关键词进行GO分析,听上去就很高大上,其实就是一种聚类分析。和芯片分析的思想是一样的(不懂就看这里),那具体能分析出什么来呢?我们举一个栗子,比如搜索P53相关的文献。一般来说,会有初级检索词和次级检索词。我们暂时不考虑次级检索,就简单地搜一下P53。



搜索出来结果有七万八千多条,有用的(包含摘要)的文献又六万多。就直接使用这些有摘要的文献,进行text的聚类分析了。



我们可以看到结果显示,不好意思,又打码了(你咬我啊,就继续看骑兵片吧,要看步兵片的下次再说)。结果中包含:“摘要”、“药物”、“疾病”、“文本互作”、“作者网络”、“基因”六大块。



我们先来看摘要,文本的挖掘,其实关键就是所有文本中包含了什么样的信息。摘要这个结果,就包含了所有经这个数据库分析的摘要数据。从这些摘要数据中,提炼出相关的关键词,比如基因,比如功能,比如疾病等等。对这些关键词进行统计,就能获得对你搜索的这个关键词周边相关的聚类分析。



比如:药物。在点开药物后,会发现一个与P53治疗相关的药物列表,相关性(得分)由高到低。同时还能知道使用药物的相关信号通路(Related Pathways)以及相关人群(Related People)。当然可以导出列表,你可以在想要了解的几种药物上打上勾(2-5种,不能再多),然后拉到最下面,进行“共现”分析,也就是分析这几种药物共同使用或出现在一篇摘要中的次数的分析。会出现这样的图,几种药物相互间共同使用的关系图,共同出现的频率越高,代表关联的线条就越粗。



接着是相关的疾病,当然,其实分析的原理和相关药物一样,也可以进行“共现”分析,了解与P53相关的疾病之间的关联。



那从中我们就应该能了解大概的基因和疾病和药物间的相互关联性了不是么?那就涉及到了下一个结果显示——文本互作。什么是文本互作,就是从文本中,通过聚类分析挖掘出来相互的作用,包含了“药物”、“基因”、“疾病”、“相关的生物学过程”等几个方面。



我们就看一下“基因”、“药物”、“疾病”间的互作关系图,通过聚类分析,找出相关性最密切的几种药物和基因还有疾病,组成了这样交织的网络图。这样就对于P53周边相关的内容,有了一个更为深刻的认识了,不是么?



…华丽丽的分割线…


李莫愁博士:今天的贴还是在打码中……而且这个数据库真正关键的,其实是在“Gene”这个Result中,能包括与你搜索的基因相关的可能的蛋白互作结果,信号通路结果,表达模式等等。还是下次接着再讲吧……


ps:暂时还是不告诉你这是啥数据库吧,所以别问我啦。有很多小伙伴表示,有时会有强烈学习的欲望,但是还好自制力强,一会会就压制下去了。知识来得太容易了,没有人会珍惜,所以接着打码到把这个数据库讲完后再公布答案,这个系列大家接着追剧,追到最后一集不服可以来打我。




万事屋出售的课程及服务(点击下方飘黄部分即可查看)


《一分钟meta学习教程》(还有个meta讨论的群,点进去找阿可拉大家吧,优惠码也是问客服阿可:zz76770309)


翻译润色(点击进去看联系方式)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存