BUSCO v3 provides quantitative measures for the assessment of genome assembly, gene set, and transcriptome completeness, based on evolutionarily-informed expectations of gene content from near-universal single-copy orthologs selected from OrthoDB v9.
BUSCO assessments are implemented in open-source software, with a large selection of lineage-specific sets of Benchmarking Universal Single-Copy Orthologs. These conserved orthologs are ideal candidates for large-scale phylogenomics studies, and the annotated BUSCO gene models built during genome assessments provide a comprehensive gene predictor training set for use as part of genome annotation pipelines.
git clone https://gitlab.com/ezlab/busco.git
- Dependency
Python (python 3.x or python2.7+. recommend 3.x)
2017/08/16 - [linux] - Python 설치 및 실행하기
NCBI BLAST+ [NB: please see release note 2.0.1 below]
2017/08/16 - [bioinformatics] - NCBI BLAST+ 설치 및 실행하기
HMMER (HMMER v3.1b2)
2017/08/16 - [bioinformatics] - HMMER 설치 및 실행하기
Augustus (> 3.2.1) (only used for assessing genomes)
2017/08/16 - [bioinformatics] - Augustus 설치 및 실행하기
- Data set
# Bacteria
wget http://busco.ezlab.org/v2/datasets/bacteria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/proteobacteria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/rhizobiales_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/betaproteobacteria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/gammaproteobacteria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/enterobacteriales_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/deltaepsilonsub_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/actinobacteria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/cyanobacteria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/firmicutes_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/clostridia_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/lactobacillales_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/bacillales_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/bacteroidetes_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/spirochaetes_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/tenericutes_odb9.tar.gz
# Eukaryota
wget http://busco.ezlab.org/v2/datasets/eukaryota_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/fungi_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/microsporidia_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/dikarya_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/ascomycota_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/pezizomycotina_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/eurotiomycetes_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/sordariomyceta_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/saccharomyceta_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/saccharomycetales_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/basidiomycota_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/metazoa_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/nematoda_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/arthropoda_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/insecta_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/endopterygota_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/hymenoptera_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/diptera_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/vertebrata_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/actinopterygii_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/tetrapoda_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/aves_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/mammalia_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/euarchontoglires_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/laurasiatheria_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/embryophyta_odb9.tar.gz
wget http://busco.ezlab.org/v2/datasets/protists_ensembl.tar.gz
wget http://busco.ezlab.org/v2/datasets/alveolata_stramenophiles_ensembl.tar.gz
Data set은 해당 분류 안에 있는 sing copy ortholog gene set을 미리 만들어 놓은것이다.
예를 들어 mammalia 안에는 포유동물들이 공통적으로 가지고 있는 single copy ortholog gene 들이 들어있다.
종에 맞는 Database를 다운로드 받아서 BUSCO를 실행할 때 넣어주면 된다.
위의 프로그램을 모두 설치하였으면 BUSCO 실행 환경을 만들어 주어야한다.
BUSCO/config/config.ini.default파일이 있는데 user에 따라서 다른 환경이 필요할 때 이 config 파일을 여러 개 만들고 환경변수 설정을 해주어야 한다고 되어있다.
cp config.ini.dfault config.ini
vi config.ini
파일을 열어보면 위의 설치한 파일들의 경로를 넣어주면 된다. 모두 넣고 나면
export BUSCO_CONFIG_FILE="/PATH/TO/BUSCO/config/config.ini"
설정이 모두 끝나면 다시 BUSCO 폴더로 돌아와서
설치가 진행된다. python 버전을 확인하고 진행해야 한다.
설치가 완료되면 /PATH/TO/BUSCO/sciprts/run_BUSCO.py 으로 진행하면 된다.
run_BUSCO.py python 버전이 여러 개가 깔려 있다면 sciprt에 기본으로 잡히는 python경로를 수정해야 할 필요가 있을 수 있다.
python BUSCO.py -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [OTHER OPTIONS]
-i query 파일의 위치
-l 위에서 받은 Data set 폴더 위치
-sp 로 종을 정할 수 있는데 가능한 종은 augustus에서 지원하고 있는 종만 해당된다. 해당 목록은 augustus 설치 글을 참조.