반응형

NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing


Long-read sequencing을 기반으로 한 Structural variants를 찾아내는 프로그램으로 직접 알고리즘을 개발한 것은 아니고 이 전에 개발된 프로그램들의 조합(alignerSV caller)을 고려하고 parameter를 최적화 하는 작업을 진행한 meta SV caller이다. 비교 대상은 가장 많이 쓰이고 있는 PBHoney Sniffles이며 두 프로그램의 featurePBHoneylong-read discordanceinterrupted mapping이고 Snifflessplit-read, high-mismatch, coverage 등을 사용하고 있다. 두 프로그램은 aligner를 특정하여 진행하고 있는데 NextSV는 모든 조합(Figure 1)을 고려하여 sensitive/stringent set의 결과를 도출한다.(이후 분석 목적에 따라 어떤 set로 진행할 지 정하면 된다.) 또한 이 과정에서 long-read는 아직까지 sequencing 비용이 비싸 depth가 깊지 않은 경우가 많은데 이러한 depth에 따른 parameter까지 고려하여 parameter를 최적화 하고 있다. 이후에는 (Figure 2-4) 검증된 두 데이터 (NA12878Ashkenazi Jewish family trio)를 가지고 performance를 비교하였다. 대부분의 결과에서 NextSV caller를 사용한 결과가 좋았으나 PBHoneySniffles에서는 default옵션으로만 진행하였다는 것을 고려해야 하며 논문에서는 시간이나 사용하는 메모리 등에 대한 비교는 Table 5 이외에는 없고 Table 5NextSV에서 각 step별 소요 시간만을 보여주고 있다. NextSVmeta SV caller인만큼 performance는 좋을 지라도 computational resource 사용면에서는 다른 프로그램에 비해 안좋을 것이라고 예상된다


resource -

Li Fang et al., NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing, BioRxiv, 2017


반응형
반응형

MARS 설치 및 실행하기



Multiple sequence alignment를 할 때 Input은 항상 linear하게 줄 수 밖에 없는데 mitochondrial DNA, viroid, viral or other genome 같은 circular DNA의 경우 시작과 끝을 정의할 수 없기 때문에 기준 없이 넣었다가는 이상한 결과가 나온다.


MARS는 sequence shifting을 통해 이러한 문제를 해결하고자 만든 프로그램이다.



프로그램은 github에서 받을 수 있다.


git clone https://github.com/lorrainea/mars

cd mars

./pre-install.sh

make -f Makefile


순서대로 진행하면 mars 실행파일이 생성된다.


실행명령은 아래처럼 하면 된다.


mars -a DNA/PROT -i input.fasta -o output.fasta -m 1 -T threads


output.fasta파일은 start와 end가 맞추어 졌으니 다시 clustal omega와 같은 MSA 프로그램에 결과를 기다리면 된다.



밑에 예시에서는 5종의 mitochondria sequence를 넣고 바로 MSA를 했을 때 밑의 두 종의 sequence만 먼저 나오는 것을 확인할 수 있었지만 mars를 진행한 뒤 다시 MSA를 했을 땐 정상적으로 align되는 것을 확인할 수 있었다.





Reference -

https://github.com/lorrainea/mars

Lorraine A. K. Ayad and Solon P. Pissis, MARS: improving multiple circular sequence alignment using refined sequences, BMC Genomics, 2017 https://doi.org/10.1186/s12864-016-3477-5

반응형

'bioinformatics' 카테고리의 다른 글

Stem cell  (0) 2018.04.05
Single cell sequencing  (0) 2018.04.05
BEAGLE-LIB 설치하기  (0) 2017.09.27
BEAST 설치 및 실행하기  (0) 2017.09.27
MHAP 설치 및 실행하기  (0) 2017.09.19
반응형

BEAGLE-LIB 설치하기



BEAST를 실행하는데 beagle-lib가 필요하여 설치방법을 소개하고자 한다.


README 파일에서는 svn으로 받으라고 되어있지만 해당 PATH를 찾지 못하여 그냥 git 주소와 같이 공개한다.


svn checkout http://beagle-lib.googlecode.com/svn/trunk BEAGLE

cd BEAGLE

or



./autogen.sh

./configure --prefix=/PATH/TO/INSTALL/BEAGLE-LIB

make

make install


순서로 진행하면 된다.


autogen.sh 시에 OS의 버전이 낮을 시 autoconf 버전이 맞지않아 configure파일이 생기지 않을 수 있는데 autoconf를 새로 설치하면 된다.



configure시에 아래와 같은 경고가 있을 수 있는데 GPGPU 연산이 불가능한 서버에서 작업 중이라면 무시하고 진행한다.


configure: WARNING: OpenCL not found or disabled.  OpenCL implementation  will not be built. If OpenCL support is desired, check the path to OpenCL and specify --with-opencl=/path/to/opencl

configure: WARNING: NVIDIA CUDA nvcc compiler not found or CUDA support disabled.  CUDA implementation will not be built. If CUDA support is desired, check the path to CUDA and specify --with-cuda=/path/to/cuda


make 와 make install까지 성공적으로 마쳤다면 PATH를 잡아주기만 하면 된다.


export LD_LIBRARY_PATH=/PATH/TO/INSTALL/BEAGLE-LIB/lib:$LD_LIBRARY_PATH 









반응형

'bioinformatics' 카테고리의 다른 글

Single cell sequencing  (0) 2018.04.05
MARS 설치 및 실행하기  (0) 2017.09.27
BEAST 설치 및 실행하기  (0) 2017.09.27
MHAP 설치 및 실행하기  (0) 2017.09.19
Racon 설치 및 실행하기  (0) 2017.09.19
반응형

BEAST 설치 및 실행하기



BEAST는 서열을 MCMC를 사용한 Bayesian analysis를 통해 phylogenetic tree를 그려주는 프로그램이다.


홈페이지 - http://beast.community/


JAVA 1.6 이상 버전에서 작동한다.


다운로드는 github를 통해서 할 수 있다. (https://github.com/beast-dev/beast-mcmc/releases/latest)


1.8.4 버전 기준으로 설치는 아래와 같다.


https://github.com/beast-dev/beast-mcmc/releases/download/v1.8.4/BEASTv1.8.4.tgz

tar -zxf BEASTv1.8.4.tgz


특별히 install 할 필요는 없고 압축을 풀면 bin 폴더가 나온다. 


GUI 기반으로 작동하니 Xming 등의 X server 프로그램과 동시에 실행해야 한다.


BEAGLE library plugin도 설치해야 한다.


2017/09/27 - [bioinformatics] - BEAGLE-LIB 설치하기


Beast 옵션 중에 beagle library가 불가능 할시 그냥 쓰지 않을 수도 있기는 하다. 정확히 무슨 차이가 있는지는 조사 필요함.



모두 설치하고나면 BEAUti, BEAST, TreeAnnotator, LogCombiner, TreeStat 다섯 개의 프로그램이 설치된다.



홈페이지에 있는 tutorial을 그대로 따라하면 tree를 그릴 수 있다.


간략하게 순서를 말하자면


먼저 NEXUS 포맷의 MSA (mulitiple seuquence alignment) 결과가 필요하다. 


web program인 clustal omega (http://www.ebi.ac.uk/Tools/msa/clustalo/)에 sequence를 넣고 output format만 NEXUS로 바꾸고 돌리면 MSA 결과는 쉽게 얻을 수 있다.


BEAUti 프로그램으로 MSA 결과와 BEAST를 어떤 parameter로 돌릴 지를 결정하고 저장하면 xml파일이 생기는데


이후에 BEAST 프로그램에 xml파일을 넣고 실행하면 trees파일이 생성되고 이 파일을


figtree(http://tree.bio.ed.ac.uk/software/figtree/) 등의 프로그램으로 확인하는 것이다.







반응형

'bioinformatics' 카테고리의 다른 글

MARS 설치 및 실행하기  (0) 2017.09.27
BEAGLE-LIB 설치하기  (0) 2017.09.27
MHAP 설치 및 실행하기  (0) 2017.09.19
Racon 설치 및 실행하기  (0) 2017.09.19
Phylip 설치 및 실행하기  (0) 2017.09.18
반응형

Fast and accurate de novo genome assembly from long uncorrected reads



제목과는 다르게 assembler가 아니라 consensus에 사용할 수 있는 RACON 프로그램을 소개하고 있다. QuiverNanopolish와 비슷한 프로그램이나 두 프로그램은 sequencer-specific인데 반해 RACON은 상관없이 사용할 수 있다. Table 1. 에서 6개의 small genome (lambda 에서 c.elegans 까지)을 가지고 성능을 비교하였다. Racon 이전의 step들은 miniasm(assembler), minimap(mapper)를 사용했으며 다른 프로그램을 사용해도 된다. Canu, FALCON과 비교했을 때 assembly된 결과와 reference간의 Aln. bases ref 등을 고려할 때 성능은 크게 차이 나지 않아 보인다. RaconQuiver, Nanopolish등을 중복해서 사용해도 결과는 거의 달라지지 않는다고 한다. 그러나 Table 2. 를 참고하면 속도는 최소 2~3배에서 최대 200~300배 정도 빠르다고 나와있다. 또한 Table 6. 에서는 비슷한 consensus 프로그램 Sparc와 비교했을 때는 IdentityCPU time 모두에서 확실히 좋은 결과를 보여주고 있다. Large genome에서도 사용할 수 있는지에 대해서는 assemblerminiasmlarge genome에 최적화 되어 있지 않아 miniasm+Racon pipeline 에서는 사용하지 않았다고 되어있는데 Racon만 사용하는 것에는 문제가 없어 보인다



resource -

Robert Vaser et al., Fast and accurate de novo genome assembly from long uncorrected reads, Genome research, 2017

반응형

+ Recent posts