Alignment how-to

1) Input file 의 준비 : reference genome 준비하기. -> hg19.fa 라고 하면,

> bwa index -a bwtsw -p hg19 hg19.fa : indexed and transformed using the indexing tool included in BWA

(-a bwtsw : to use the bwtst algorithm for constructing the reference files)



2) Actual Alignment

> bwa aln -t 4 -f input .sai -I hg19 input.fastq

bwa 의 아웃풋은 sai format 이므로 sam 으로 바꾸어야 한다.

> bwa samse -f out.sam -r "@RG\t........" hg19 input.sai input.fq (single-end read)
> bwa sampe -f out.sam -r "@RG.........." hg19 input1.sai input2.sai input1.fq input2.fq (pair-end read)


3) SAM to BAM conversion

BAM (the binary Alignment/Map format) 
: SAM 보다 크기 작다. 
: Picard 사용, SortSam.jar program 이용한다 to sort the SAM file and save it as a BAM file

> java -Xmx4g -Djava.io.tmpdir=/tmp \
-jar picard/SortSam.jar \
SO=coordinate \ 
INPUT=input.sam \
OUTPUT=output.bam \
VALIDATION_STRINGENCY=LENIENT \
CREATE_INDEX=true



4) Marking PCR duplicates

amplification biases 때문에 생겨난 PCR duplicates 를 마크 : picard 사용

java -Xmx4g -Djava.io.tmpdir=/tmp \
-jar picard/MarkDuplicates.jar \
INPUT=input.bam \
OUTPUT=input.marked.bam \
METRICS_FILE=metrics \
CREATE_INDEX=true \
VALIDATION_STRINGENCY=LENIENT


아니면, samtools 사용
>samtools rmdup -S aln.bam > aln.rmdup.bam



5) Local realignment around indels

false positive 를 불러올 수 있는 indels 막기 위해, Genome Analysis Tool Kit (GATK) 을 사용.
먼저 possible indels 테이블을 생성

> java -Xmx4g -jar GenomeAnalysisTK.jar \
-T RealignerTargetCreator \
-R hg19.fa \
-o input.bam.list \ 
-I input.marked.bam 

다음으로 realign reads,

java -Xmx4g -Djava.io.tmpdir=/tmp \
-jar GenomeAnalysisTK.jar \
-I input.marked.bam \
-R hg19.fa \
-T IndelRealigner \
-targetIntervals input.bam.list \
-o input.marked.realigned.bam


* 만약 pair-end 라면,

> java -Djava.io.tmpdir=/tmp/flx-auswerter \
-jar picard/FixMateInformation.jar \
INPUT=input.marked.realigned.bam \
OUTPUT=input_bam.marked.realigned.fixed.bam \
SO=coordinate \
VALIDATION_STRINGENCY=LENIENT \
CREATE_INDEX=true



6) Quality score recalibration

먼저 Count covariates

> java -Xmx4g -jar GenomeAnalysisTK.jar \
-l INFO \
-R hg19.fa \
--DBSNP dbsnp132.txt \
-I input.marked.realigned.fixed.bam \
-T CountCovariates \
-cov ReadGroupCovariate \
-cov QualityScoreCovariate \
-cov CycleCovariate \
-cov DinucCovariate \
-recalFile input.recal_data.csv

** dbsnp132.txt 는 http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database에서 다운로드. 정기적으로 업데이트된다.


그리고나서 Table recalibration

> java -Xmx4g -jar GenomeAnalysisTK.jar \
-l INFO \
-R hg19.fa \
-I input.marked.realigned.fixed.bam \
-T TableRecalibration \
--out input.marked.realigned.fixed.recal.bam \
-recalFile input.recal_data.csv




*** 모든 내용은 http://seqanswers.com/wiki/How-to/exome_analysis 을 통해 정리했습니다. ***



핑백

덧글

댓글 입력 영역