查看原文
其他

盗墓笔记——如何用万事屋给的神器,不做实验挖掘乳腺癌相关标记基因?

2016-07-26 永不言弃 实验万事屋

温馨提示:请点击标题下方蓝色“实验万事屋”,或者点击下面的指纹,添加关注后,发“嗯”可以查看我们之前的文章。


1、搜索基因芯片


  

我的目标是“breast cancer”,在GEO和ArrayExpress数据库搜索一番后,决定下载arrayexpress数据库的E-GEOD-45581E-GEOD-54002两个芯片(ArrayExpress数据库不是一般的慢啊 ,我用了翻墙软件打开都很慢,能不能打开就看人品吧;如果能在GEO找到芯片尽量不要到这个数据库来找)。具体操作如下:




由于我后续要用G神器来处理数据(不知道就点这里,点进去还看不懂就记得听歌,听完找听到过的句子作死地点!),因此这里我要点击最右边的“Atlas”按钮,保证所下载数据能够用G神器来分析。



接下来点击你选中芯片的“Atlas”列的区别针标志进入下载页面,如下:



如图所示,先点击试验烧瓶,再点击第一个向下箭头按钮,直接下载数据。


2、数据下载好后,该进行处理了。跟我一起唱,“张学友的歌曲”,拿出右叔的G神器。这货打开就是慢啊(其实下面这个界面已经是打开了,正在自动加载CCLE的芯片,可以直接关掉),不过要是配制高的电脑应该木有问题。



分别导入之前下载的芯片数据

 


选中下载文件后进入下面界面,点击红色框内区域,对数据框进行分区后点击”OK”



进入下列界面,点击红框内标志进行差异基因筛选

 


选择好分组情况点击”OK”



生成热图以及差异基因列表



将差异基因列表复制到excel中,两个芯片都这样操作后得到两个芯片的表达差异基因


3、对两组差异基因进行GO分析,并用郭大侠传授R语言(不知道的就点这里)进行展示GO分析结果。(所有GO分析结果均选择count数在10以上的结果进行作图)用右叔教你们的GO分析网站(卧槽,这个实在不记得是哪个帖子了……但肯定写过),将差异基因bia进去,操作如下:



直接点击下载,下载下来的文件只保留如下列



R语言进行GO分析图展示

GO分析代码:

dat <- read.table("chart2.txt", header= T,sep="\t")

pdf("goPvalue2.pdf")

ggplot(data=dat)+geom_bar(aes(x=Term,y=Count, fill=-log10(PValue)), stat='identity') + coord_flip() +scale_fill_gradient(low="red", high = "blue") +xlab("") + ylab("") +theme(axis.text.x=element_text(color="black", size=5),axis.text.y=element_text(color="black", size=5)) +scale_y_continuous(expand=c(0, 0)) + scale_x_discrete(expand=c(0,0))

dev.off()

GO分析结果:



GO分析结果可以得出,两组芯片GO分析结果表明,细胞分裂相关生物过程发生明显改变。


4、用右叔之前介绍的excel match函数大法选择两个芯片的共同差异基因出来(不知道的点这里)。

Excel筛选结果如下(match筛选后按照第三排排序即可得下列结果):



5、对两个芯片的共同差异基因进行GO分析,结果如下:



6、打开蛋白互作网站把两组芯片共同差异基因bia进去(不知道STRING怎么用,就给我点这里!),选择物种后点击继续,下一页继续拉到最后,点击继续按钮,在出来互作图片的页面选择格式文件下载文件。




点击“search”



拉到最下面点击“continue”



生成全部蛋白互作图



下载数据文件


 

6、打开cytoscape软件(没听过的就点这里),把tsv格式文件导入软件,利用之前右叔介绍的appMCODE”对蛋白互作网络进行分析,分析完成后导出分析结果。此时,有3个互作模式,选择出了15个基因。如下操作:


导出互作结果如下:



15个基因互作模式图由string网站展示结果如下:



7、对这15个选择出来的基因用两组数据分别做热图(热图用郭大侠传授的R语言制作)。同时运用之前右叔介绍的又一神器(kmplot,不知道的点这里),对个15个共同差异基因进行整体生存率分析。

R语言做热图代码

DEG_exp<-read.table("54002.txt",sep='\t',header=T,row.names=1)

tiff(file="54002.pheatmap.tif",res=300,units='in',width=20,height=20)

pheatmap(DEG_exp,color=colorRampPalette(c("green","black","red"))(100),fontsize_row=20,fontsize_col=20,scale="row",border_color=NA)

dev.off()

热图结果:


生存曲线如下:



写在最后,我也不知道做这么多目的是干什么,总体感觉就是选择出了15个基因组合,可以标志乳腺癌发病。


…华丽丽的分割线…


李莫愁博士:感谢“永不言弃”童鞋的投稿,起码我们很欣慰,有人真的能好好利用我们给你们的神器来做一些事情。这些虽然停留在数据挖掘层面上,但是再补充免疫组化结果,应该也能作为文章发表出来。如果再经过深入挖掘,说不定就会有更多机制上的内容被挖掘到也说不定呢。总之,再次感谢“永不言弃”童鞋,谢谢!请大家也毫不吝惜地打赏他!好了,今天就先策到这里吧。


万事屋出售的课程及服务(点击下方即可查看,客服微信号阿可:zz76770309)


《meta简明教程》         《SCI写作教程》          《SCI制图》           《万事屋1元科研分享》        标书写作教程        松哥统计教程


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存