查看原文
其他

转录因子和靶基因系列(三)哪个TF会来结合我这段DNA

2015-12-30 小丫 嘉因生物

@一往*深童鞋提出了一个经典问题:“已经通过双荧光素载体确定了核心启动子序列,如何才能够准确高效的找到其中结合的转录因子呢?期待做个这方面的专题。”


简言之,就是“一段DNA序列,哪些转录因子会跟它结合?”


两种方法来实现,你更喜欢哪一种?

方法一、有实验证据的推测

目前全世界已发表800多个TF在人和小鼠里的14000多套ChIP-seq数据(详见CistromeMap用法),也就是说,这些转录因子结合到哪些位点,以及基因组的每个位置上有哪些TF结合,都已经有了ChIP-seq实验证据的支持。

只要查询已有的ChIP-seq数据,就可以知道基因组上某个位置结合了哪些TF。


方法二、基于DNA序列的预测

每个转录因子都有一个DNA结合结构域(DBD),喜欢结合在特定DNA序列上,也就是motif。

如果我感兴趣的DNA上有某个TF的motif,那么该TF就有可能结合这段DNA,从而调控下游基因表达。


方法一的优点是,这些TF跟DNA的结合是有in vivo实验证据的,缺点是,由于基因的转录调控有着组织特异性,做ChIP-seq的细胞类型和处理条件下不结合,在你关心的细胞类型或处理条件下不一定也不结合,有可能真就能结合呢!反之亦然。


方法二的缺点是,DNA序列上有TF对应的motif,in vitro凝胶阻滞实验也可能是阳性,但该TF在体内不一定真的就能过来结合,不过这起码提供了一条线索,让你有迹可循,看到了某个你感兴趣的TF的motif,就做个ChIP-qPCR验证一下吧!


下面我们介绍个工具,能够同时实现以上两种方法。


http://genome.ucsc.edu/ENCODE/


点击左边那个Genome Browser,进入UCSC genome browser界面。这里有多行,俗称track,先是基因结构,然后依次是SNP位点、mRNA、EST、表观遗传修饰、保守性等等,怎么看,怎么用,跟本帖问题没大关系,以后再聊。


以TP53为例,在空白方框里输入基因名TP53(或者你感兴趣的那个基因名),zoom out处点击3x。


想见主角,请向下滚动鼠标,到Regulation,


在ENC TF binding site处,选择show,在TFBS conserved处,选择full,点击右上角的refresh。页面刷新后,就会出现2个新的track。


一个track是Transcription Factor ChIP-seq Uniform Peaks from ENCODE/Analysis,即方法一的已有ChIP-seq实验证据的TF结合位点。可以看到大部分细胞里,TP53的promoter区都有CTCF和PolII的结合信号,另外,GM12878细胞里,有SP1的结合信号,胚胎干细胞H1里有NANOG的结合信号,白血病细胞系K562里有NFYA的结合信号,Hela-S3细胞系里有E2F1的结合信号等等,说明特定TF可能特异性的在这些细胞系里调控着TP53的转录。


另一个track是HMR Conserved transcription Factor Binding sites,即方法二的TF的motif。可以看到,在TP53的promoter区,有M2F1,STAT1,LMO2COM,GATA,GFI1,NFKAPPAB65,CREL,NFKB,M2F1,NMYC等转录因子的motfi。

你感兴趣的TF在这里出现了吗?

再碎碎念一下:方法一虽然有实验证据,但毕竟UCSC genome browser里只列出了ENCODE做的那有限的119个TF和组蛋白修饰的ChIP-seq数据,如果刚好是119个以外的某个TF在我这里起到关键的调控作用,我不就看不到了吗,说好的800多个TF的14000套ChIP-seq数据呢,如何查看呢?这个小丫只能告诉你,找嘉因生物吧,他们能帮你解决这119个以外,800个TF以内的问题。


如果我感兴趣的TF是在那800个TF以外呢?还有方法二来帮你,所有已知motif的TF它都包含进来了,就需要你自己进一步的做实验验证了。


查看《转录因子和靶基因》文章,请回复TF+文章编号,例如回复“TF1”。

TF1. CistromeMap,最全的ChIP-seq数据库,转录因子调控哪些下游基因,有实验证据的线索

TF2. factorbook,ENCODE的ChIP-seq数据库,按类浏览转录因子及其结合特征

TF3. UCSC Genome browser,哪个TF会来结合我这段DNA

查看《生信小硕乱入生物实验室的幸福生活》系列文章,请回复小哈+文章编号,例如回复“小哈1”。

小哈1. 哈师弟的博士研究僧之旅开篇

小哈2. 怎样批量查看lncRNA跟疾病的关系

小哈3. 如何避免批次效应导致的结果不可靠

小哈4. 缺了对照会怎样

小哈5. 家族遗传病如何设计测序实验

小哈6. 遗传病的显隐性、伴性遗传的判断


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存