查看原文
其他

【直播】我的基因组24:用GATK对SAM格式的文件进行重排

2016-12-20 生信菜鸟团 生信技能树

GATK教程我以前写过:

这个步骤分成2个小步骤:

首先用RealignerTargetCreator找到需要重新比对的区域,输出文件intervals,然后用输出的 tmp.intervals 做输入文件来进行重新比对,也就是用IndelRealigner在这些区域内进行重新比对

 这个是批量运行的代码,就是用shell脚本写一个循环即可:

sam/bam的染色体顺序不一样,还有可能是染色体的名字不一样,比如>1和>chr1的区别。

下面是对我的基因组bam文件用GATK进行重排,命令分成两步,请注意下面用到的参考基因组文件和软件,需要保证都是按照前面的教程安装,用的的vcf文件下载地址见文末


nohup java -Xmx60g -jar ~/biosoft/GATK/GenomeAnalysisTK.jar -R ~/reference/genome/human_g1k_v37/human_g1k_v37.fasta -T RealignerTargetCreator -I P_jmzeng.filter.rmdup.bam  -o P_jmzeng.filter.rmdup.intervals -known ~/annotation/GATK/1000G_phase1.indels.b37.vcf.gz 1> P_jmzeng.filter.rmdup.RealignerTargetCreator.log



## 请保证你的bam文件比对的时候选择的参考基因组跟你在使用GATK的时候自己指定的参考基因组的一致性。


nohup java -Xmx60g -jar ~/biosoft/GATK/GenomeAnalysisTK.jar  -R ~/reference/genome/human_g1k_v37/human_g1k_v37.fasta  -T IndelRealigner  -I P_jmzeng.filter.rmdup.bam  -targetIntervals P_jmzeng.filter.rmdup.intervals -o P_jmzeng.filter.rmdup.realgn.bam  1>P_jmzeng.filter.rmdup.IndelRealigner.log


输出文件如下:

(nohup的命令在之前讲过,是后台运行的命令,其中1表示运行的日志输入log文件,如果用2的话,表示的是指输出报错的日志)

在探索这个软件的用法的时候可能会报错,根据报错日志搜索解决即可;

第一个错误:


MESSAGE: Fasta dict file /home/jianmingzeng/reference/genome/human_g1k_v37/human_g1k_v37.dict for reference /home/jianmingzeng/reference/genome/human_g1k_v37/human_g1k_v37.fasta does not exist. Please see http://gatkforums.broadinstitute.org/discussion/1601/how-can-i-prepare-a-fasta-file-to-use-as-reference for help creating it.



解决方案,在参考基因组文件所在的目录运行下面代码:


java -jar ~/biosoft/picardtools/picard-tools-1.119/CreateSequenceDictionary.jar R=human_g1k_v37.fasta O=human_g1k_v37.dict



第二个错误:


MESSAGE: An index is required,  K/1000G_phase1.indels.b37.vcf.gz


因为我在broad 网站下载的文件需要gunzip解压。 

文件下载地址是:  

下载代码是:


## ftp://ftp.broadinstitute.org/bundle/b37/

mkdir -p ~/annotation/GATK


cd ~/annotation/variation/GATK


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/1000G_phase1.snps.high_confidence.b37.vcf.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/dbsnp_138.b37.vcf.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/human_g1k_v37.fasta.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/Mills_and_1000G_gold_standard.indels.b37.vcf.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/hapmap_3.3.b37.vcf.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/1000G_phase1.indels.b37.vcf.gz


wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/1000G_phase1.indels.b37.vcf.idx.gz


gunzip 1000G_phase1.indels.b37.vcf.idx.gz


gunzip 1000G_phase1.indels.b37.vcf.gz


ref:



文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存