반응형

HMMER: biosequence analysis using profile hidden Markov model


sequence homologs를 사용하는 sequence searching 프로그램이며 profile하는데 hidden Markov model 알고리즘을 을 사용한다.


공식 홈페이지 http://hmmer.org/  에 가서 Download 탭으로 이동 후 OS 버전에 맞는 파일을 다운 받는다.


tar -zxf hmmer-3.1b2.tar.gz

cd hmmer-3.1b2

./configure --prefix=/PATH/TO/INSTALL

make && make install


마지막으로 prefix에 설정해둔 디렉토리로 가서 bin 폴더를 PATH에 추가하면 끝. 



반응형

'bioinformatics' 카테고리의 다른 글

AGOUTI 설치 및 실행하기  (0) 2017.08.21
Augustus 설치 및 실행하기  (0) 2017.08.16
NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
반응형

Blast 는 Basic local alignment Search Tool의 약자로서 아미노산 서열이나 뉴클레오티드 서열을 기반으로 query sequence가 database sequence 어디에 위치해있는지 찾아내는 프로그램이다.


1990년 논문이 나왔으며 2017년 현재 65000회 이상 인용되었다.


Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers, David J. Lipman, Basic local alignment search tool, Journal of Molecular Biology, Volume 215, Issue 3, 1990, Pages 403-410, ISSN 0022-2836, http://dx.doi.org/10.1016/S0022-2836(05)80360-2.

(http://www.sciencedirect.com/science/article/pii/S0022283605803602)



최신버전 다운로드는 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ 에서 할 수 있다. 


OS버전에 맞게 받으면 된다.


별도의 설치가 필요하지는 않으며


tar -zxf ncbi-blast-*.tar.gz


압축을 푼 뒤 bin folder를 PATH에 잡아주기만 하면 끝.



blast는 단독으로 쓰기보단 다른 프로그램과 연동해서 쓰는 경우가 많은 것 같다.

반응형

'bioinformatics' 카테고리의 다른 글

Augustus 설치 및 실행하기  (0) 2017.08.16
HMMER 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
GLOOME 설치 및 실행하기  (0) 2016.12.19
반응형

BUSCO v3 provides quantitative measures for the assessment of genome assembly, gene set, and transcriptome completeness, based on evolutionarily-informed expectations of gene content from near-universal single-copy orthologs selected from OrthoDB v9.

BUSCO assessments are implemented in open-source software, with a large selection of lineage-specific sets of Benchmarking Universal Single-Copy Orthologs. These conserved orthologs are ideal candidates for large-scale phylogenomics studies, and the annotated BUSCO gene models built during genome assessments provide a comprehensive gene predictor training set for use as part of genome annotation pipelines.


git clone https://gitlab.com/ezlab/busco.git



- Dependency



 Python (python 3.x or python2.7+. recommend 3.x)

2017/08/16 - [linux] - Python 설치 및 실행하기


 NCBI BLAST+ [NB: please see release note 2.0.1 below] 

2017/08/16 - [bioinformatics] - NCBI BLAST+ 설치 및 실행하기


 HMMER (HMMER v3.1b2) 

2017/08/16 - [bioinformatics] - HMMER 설치 및 실행하기


 Augustus (> 3.2.1) (only used for assessing genomes)

2017/08/16 - [bioinformatics] - Augustus 설치 및 실행하기




- Data set 



# Bacteria

wget http://busco.ezlab.org/v2/datasets/bacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/proteobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/rhizobiales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/betaproteobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/gammaproteobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/enterobacteriales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/deltaepsilonsub_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/actinobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/cyanobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/firmicutes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/clostridia_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/lactobacillales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/bacillales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/bacteroidetes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/spirochaetes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/tenericutes_odb9.tar.gz

        

# Eukaryota

wget http://busco.ezlab.org/v2/datasets/eukaryota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/fungi_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/microsporidia_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/dikarya_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/ascomycota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/pezizomycotina_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/eurotiomycetes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/sordariomyceta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/saccharomyceta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/saccharomycetales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/basidiomycota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/metazoa_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/nematoda_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/arthropoda_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/insecta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/endopterygota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/hymenoptera_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/diptera_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/vertebrata_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/actinopterygii_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/tetrapoda_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/aves_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/mammalia_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/euarchontoglires_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/laurasiatheria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/embryophyta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/protists_ensembl.tar.gz

wget http://busco.ezlab.org/v2/datasets/alveolata_stramenophiles_ensembl.tar.gz


Data set은 해당 분류 안에 있는 sing copy ortholog gene set을 미리 만들어 놓은것이다. 

예를 들어 mammalia 안에는 포유동물들이 공통적으로 가지고 있는 single copy ortholog gene 들이 들어있다. 

종에 맞는 Database를 다운로드 받아서 BUSCO를 실행할 때 넣어주면 된다.



위의 프로그램을 모두 설치하였으면 BUSCO 실행 환경을 만들어 주어야한다.

BUSCO/config/config.ini.default파일이 있는데 user에 따라서 다른 환경이 필요할 때 이 config 파일을 여러 개 만들고 환경변수 설정을 해주어야 한다고 되어있다.


cp config.ini.dfault config.ini 

vi config.ini


파일을 열어보면 위의 설치한 파일들의 경로를 넣어주면 된다. 모두 넣고 나면


export BUSCO_CONFIG_FILE="/PATH/TO/BUSCO/config/config.ini"


설정이 모두 끝나면 다시 BUSCO 폴더로 돌아와서


python setup.py install 


설치가 진행된다. python 버전을 확인하고 진행해야 한다.


설치가 완료되면 /PATH/TO/BUSCO/sciprts/run_BUSCO.py 으로 진행하면 된다. 

run_BUSCO.py python 버전이 여러 개가 깔려 있다면 sciprt에 기본으로 잡히는 python경로를 수정해야 할 필요가 있을 수 있다.


python BUSCO.py -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [OTHER OPTIONS] 


-i query 파일의 위치

-l 위에서 받은 Data set 폴더 위치

-sp 로 종을 정할 수 있는데 가능한 종은 augustus에서 지원하고 있는 종만 해당된다. 해당 목록은 augustus 설치 글을 참조.


반응형

'bioinformatics' 카테고리의 다른 글

HMMER 설치 및 실행하기  (0) 2017.08.16
NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
GLOOME 설치 및 실행하기  (0) 2016.12.19
bowtie2에서 mismatch 허용하기  (0) 2016.09.13
반응형

Circos plot 그리기.



여러 프로그램들이 circos plot을 지원하지만 아래 프로그램이 입력 데이터 포맷도 편하고 원하는 그림을 그릴 수 있어서 추천한다.


perl 기반으로 작동하기 때문에 perl 없다면 설치부터 해야한다.


2017/04/25 - [linux] - Perl 설치 및 실행하기




홈페이지 http://circos.ca/


다운로드 http://circos.ca/software/download/



설치 후 bin 폴더 안에 circos 실행 파일이 있으며 실행에 필요한 perl module이 다수 있다.


cpan Config::General Font::TTF GD List::MoreUtils Math::Bezier Math::Round Math::VecStat Params::Validate Readonly Regexp::Common Set::IntSpan Text::Format SVG Clone Statistics::Basic


default perl이라면 위의 모듈만 설치해도 아마 돌아갈 것이다.


Application of Circos to displaying sequence conservation and similiarity. (800 x 693)



워낙 많은 기능을 포함하고 있어서 다 써보지도 못했지만 기본적인 내용은 best practice에 가면 configure파일과 그림을 제공하고 있으므로 따라하면 된다.



제일 기본이 되는 내용만 몇 개 요약하고자 한다.


프로그램은 configure 파일을 읽어서 설정과 입력 데이터를 확인하고 plot을 그린다.


circos를 설치한 폴더에 circos.conf라는 파일이 있는데 참고하면 된다.


1. 가장 기본이되는 backbone이 되는 karyotype이 필요하다. 기본 path는 data/karyotype이며 human을 비롯한 몇 종의 chromosome 정보가 이미 들어가 있다.


circos.conf파일에서는 human 데이터를 아래와 같이 사용하고 있다.

karyotype = data/karyotype/karyotype.human.txt


여러 genome을 동시에 그리고 싶다면 comma(,)를 넣어서 구분해주면 된다.

karyotype = data/karyotype/karyotype.human.txt,data/karyotype/karyotype.chimp.txt


hg19의 파일을 열어보면 아래와 같은 포맷으로 되어있다.

chr - hs1 1 0 249250621 chr1
chr - hs2 2 0 243199373 chr2
chr - hs3 3 0 198022430 chr3
...
chr - hs22 22 0 51304566 chr22
chr - hsX x 0 155270560 chrx
chr - hsY y 0 59373566 chry


순서대로 크로모좀, 패스, 여러 종류의 genome데이터가 들어갈 때 각각을 구분하기 위한 표시, circosplot에서 보여주는 이름, 패스, 염색체 크기, color 이다.


3열의 경우 human과 침팬지를 같이 그리고자 할 때 들어가는 input data에서 hs1 이라면 사람을 chim1이라면 침팬지를 의미하는 것으로 구분을 하고 싶을 때 사용한다.


color는 이미 chr1이 어떤 color를 가지고 있다는 것을 etc/colors.ucsc.conf 에서 정의했기 때문에 저렇게 표시해도 color이며 RGB나 다른 방식으로 색을 주어도 된다.



반응형

'bioinformatics' 카테고리의 다른 글

NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
GLOOME 설치 및 실행하기  (0) 2016.12.19
bowtie2에서 mismatch 허용하기  (0) 2016.09.13
miRNA 명명 규칙  (0) 2016.09.01
반응형

http://www.repeatmasker.org/RMDownload.html 에 접속


1. perl 버전이 5.8.0 이상인지 확인

2. Search Engine으로 사용할 프로그램 다운로드

3. Repeatmasker 다운로드.


tar zxf RepeatMasker-open-?-?-?.tar.gz 


cd RepeatMasker


perl ./configure


1. 사용할 perl의 PATH

2. Repeatmasker를 설치할 PATH

3. trf의 PATH ( trf 실행 파일의 주소까지 넣어야 함 )

4. 설치할 Search Engine. 적어도 한 가지를 설치하여야 하며 이번에는 bin folder를 경로에 입력.


으로 설치가 끝남.


Repeatmakser 4.0.6은 library의 업데이트를 필요로 하므로 작업이 더 필요한데 4.0.7은 그냥 진행 가능함.



설치가 끝나면 실행 명령은 


RepeatMasker -species <human> -q <hg38.fa>


human은 약 1주일 정도 소요됨.




※ RepeatMasker 사용시 simple repeat을 찾기 위해 trf를 사용하는데 4.0.6 기준으로 trf는 GLIBC_2.14 library를 필요로 함.


error message = trf409.linux64: /lib64/libc.so.6: version `GLIBC_2.14' not found


프로그램을 돌릴 때 trf가 제대로 안돌아 가더라도 결과가 나오기 때문에 프로그램이 정상적으로 돌아간다고 착각할 수 있음.


미리 trf를 따로 실행해서 제대로 결과가 나오는지 확인 필요함.



반응형

'Computer Science > linux' 카테고리의 다른 글

GCC 설치하기  (1) 2017.09.18
cURL 로컬 설치하기  (0) 2017.08.24
GBrowse2 설치하기  (0) 2017.04.25
Perl 설치 및 실행하기  (0) 2017.04.25
유닉스 명령어 grep, sed, awk 사용해보기  (0) 2016.08.24

+ Recent posts