반응형

Python 설치 및 실행하기




Python은 프로그래밍 언어의 일종으로 배우기 쉽기 때문에 입문용으로 많이 사용된다.


Data science 분야에서 전반적으로 사용하고 있다. 


다운로드 경로 https://www.python.org/downloads/ 에서 원하는 버전을 다운로드 받는다.


tar -zxf Python-*.tgz

cd Python-3.5.1

./configure --prefix=/PATH/TO/INSTALL/PYTHON

make && make install



Python 2.X 버전은 python 모듈을 쉽게 설치할 수 있는 easy_install이나 pip를 기본적으로 제공하고 있지 않다.


setuptools를 다운로드 받아서 설치해 줘야 한다.



setuptools를 다운 받았으면 설치한 python을 사용하여 아래와 같이 입력 한다.


python setup.py install


그러면 python/bin 폴더에 easy_install이 생긴다.


pip를 설치하기 위해서는 다시 한 번 아래처럼 입력 한다.


easy_install pip


bin 폴더에 pip도 생겼다.



pip를 사용하여 모듈을 설치할 때 pip install <MODULE> 를 입력하면 된다.


반응형

'Computer Science > python' 카테고리의 다른 글

Primer 서열 분석을 위한 python 코드  (0) 2021.08.17
String Format으로 길이 고정하기  (0) 2020.06.24
python multi-level argparse  (0) 2019.07.12
python 파일 입출력  (0) 2019.07.12
cannot mkdir R_TempDir 에러  (0) 2016.09.07
반응형

Augustus는 HMMER를 사용한 eukaryotic genomic sequence로 유전자를 예측하는 프로그램이다? (업데이트 필요)


홈페이지 http://bioinf.uni-greifswald.de/augustus/


최신버전 링크 http://bioinf.uni-greifswald.de/augustus/binaries/augustus.current.tar.gz


다운받은 파일을 압축을 풀면 폴더 명이 augustus로 고정되어 있기 때문에 버전관리를 위해 폴더명을 바꿔주는것을 권장한다.



압축을 푼 폴더로 가서 make 하고 PATH를 연결해 주어야 한다.



export AUGUSTUS_CONFIG_PATH=/PATH/TO/INSTALL/AUGUSTUS/config/

export PATH=/PATH/TO/INSTALL/AUGUSTUS/bin/:$PATH

export PATH=/PATH/TO/INSTALL/AUGUSTUS/scripts/:$PATH


아래는 3.3 버전 기준으로 현재 지원중인 종 목록이다.


  - Homo sapiens (human), 

  - Drosophila melanogaster (fruit fly), 

  - Arabidopsis thaliana (plant),

  - Brugia malayi (nematode),

  - Aedes aegypti (mosquito),

  - Coprinus cinereus (fungus),

  - Tribolium castaneum (beetle)

  - Schistosoma mansoni (worm)

  - Tetrahymena thermophila (ciliate)

  - Galdieria sulphuraria (red algae)

  - Zea mays (maize)

  - Toxoplasma gondii (parasitic protozoa)

  - Caenorhabditis elegans (worm)

  - Aspergillus fumigatus

  - Aspergillus nidulans

  - Aspergillus oryzae

  - Aspergillus terreus

  - Botrytis cinerea

  - Callorhinchus milii

  - Candida albicans

  - Candida guilliermondii

  - Candida tropicalis

  - Chaetomium globosum

  - Coccidioides immitis

  - Cryptococcus neoformans gattii

  - Cryptococcus neoformans neoformans

  - Danio rerio

  - Debaryomyces hansenii

  - Encephalitozoon cuniculi

  - Eremothecium gossypii

  - Fusarium graminearum

  - Gallus gallus

  - Histoplasma capsulatum

  - Kluyveromyces lactis

  - Laccaria bicolor

  - Lodderomyces elongisporus

  - Magnaporthe grisea

  - Neurospora crassa

  - Nicotiana attenuata (coyote tobacco)

  - Petromyzon marinus (sea lamprey)

  - Phanerochaete chrysosporium

  - Pichia stipitis

  - Rhizopus oryzae

  - Saccharomyces cerevisiae

  - Schizosaccharomyces pombe

  - Homo sapiens (human), 
  - Drosophila melanogaster (fruit fly), 
  - Arabidopsis thaliana (plant),
  - Brugia malayi (nematode),
  - Aedes aegypti (mosquito),
  - Coprinus cinereus (fungus),
  - Tribolium castaneum (beetle)
  - Schistosoma mansoni (worm)
  - Tetrahymena thermophila (ciliate)
  - Galdieria sulphuraria (red algae)
  - Zea mays (maize)
  - Toxoplasma gondii (parasitic protozoa)
  - Caenorhabditis elegans (worm)
  - Aspergillus fumigatus
  - Aspergillus nidulans
  - Aspergillus oryzae
  - Aspergillus terreus
  - Botrytis cinerea
  - Callorhinchus milii
  - Candida albicans
  - Candida guilliermondii
  - Candida tropicalis
  - Chaetomium globosum
  - Coccidioides immitis
  - Cryptococcus neoformans gattii
  - Cryptococcus neoformans neoformans
  - Danio rerio
  - Debaryomyces hansenii
  - Encephalitozoon cuniculi
  - Eremothecium gossypii
  - Fusarium graminearum
  - Gallus gallus
  - Histoplasma capsulatum
  - Kluyveromyces lactis
  - Laccaria bicolor
  - Lodderomyces elongisporus
  - Magnaporthe grisea
  - Neurospora crassa
  - Nicotiana attenuata (coyote tobacco)
  - Petromyzon marinus (sea lamprey)
  - Phanerochaete chrysosporium
  - Pichia stipitis
  - Rhizopus oryzae
  - Saccharomyces cerevisiae
  - Schizosaccharomyces pombe

BUSCO에서 -sp에 들어갈 수 있는 종도 위의 목록에서 선택할 수 있다.



반응형

'bioinformatics' 카테고리의 다른 글

GMAP 설치 및 실행하기  (0) 2017.08.22
AGOUTI 설치 및 실행하기  (0) 2017.08.21
HMMER 설치 및 실행하기  (0) 2017.08.16
NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
반응형

HMMER: biosequence analysis using profile hidden Markov model


sequence homologs를 사용하는 sequence searching 프로그램이며 profile하는데 hidden Markov model 알고리즘을 을 사용한다.


공식 홈페이지 http://hmmer.org/  에 가서 Download 탭으로 이동 후 OS 버전에 맞는 파일을 다운 받는다.


tar -zxf hmmer-3.1b2.tar.gz

cd hmmer-3.1b2

./configure --prefix=/PATH/TO/INSTALL

make && make install


마지막으로 prefix에 설정해둔 디렉토리로 가서 bin 폴더를 PATH에 추가하면 끝. 



반응형

'bioinformatics' 카테고리의 다른 글

AGOUTI 설치 및 실행하기  (0) 2017.08.21
Augustus 설치 및 실행하기  (0) 2017.08.16
NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
반응형

Blast 는 Basic local alignment Search Tool의 약자로서 아미노산 서열이나 뉴클레오티드 서열을 기반으로 query sequence가 database sequence 어디에 위치해있는지 찾아내는 프로그램이다.


1990년 논문이 나왔으며 2017년 현재 65000회 이상 인용되었다.


Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers, David J. Lipman, Basic local alignment search tool, Journal of Molecular Biology, Volume 215, Issue 3, 1990, Pages 403-410, ISSN 0022-2836, http://dx.doi.org/10.1016/S0022-2836(05)80360-2.

(http://www.sciencedirect.com/science/article/pii/S0022283605803602)



최신버전 다운로드는 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ 에서 할 수 있다. 


OS버전에 맞게 받으면 된다.


별도의 설치가 필요하지는 않으며


tar -zxf ncbi-blast-*.tar.gz


압축을 푼 뒤 bin folder를 PATH에 잡아주기만 하면 끝.



blast는 단독으로 쓰기보단 다른 프로그램과 연동해서 쓰는 경우가 많은 것 같다.

반응형

'bioinformatics' 카테고리의 다른 글

Augustus 설치 및 실행하기  (0) 2017.08.16
HMMER 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
GLOOME 설치 및 실행하기  (0) 2016.12.19
반응형

BUSCO v3 provides quantitative measures for the assessment of genome assembly, gene set, and transcriptome completeness, based on evolutionarily-informed expectations of gene content from near-universal single-copy orthologs selected from OrthoDB v9.

BUSCO assessments are implemented in open-source software, with a large selection of lineage-specific sets of Benchmarking Universal Single-Copy Orthologs. These conserved orthologs are ideal candidates for large-scale phylogenomics studies, and the annotated BUSCO gene models built during genome assessments provide a comprehensive gene predictor training set for use as part of genome annotation pipelines.


git clone https://gitlab.com/ezlab/busco.git



- Dependency



 Python (python 3.x or python2.7+. recommend 3.x)

2017/08/16 - [linux] - Python 설치 및 실행하기


 NCBI BLAST+ [NB: please see release note 2.0.1 below] 

2017/08/16 - [bioinformatics] - NCBI BLAST+ 설치 및 실행하기


 HMMER (HMMER v3.1b2) 

2017/08/16 - [bioinformatics] - HMMER 설치 및 실행하기


 Augustus (> 3.2.1) (only used for assessing genomes)

2017/08/16 - [bioinformatics] - Augustus 설치 및 실행하기




- Data set 



# Bacteria

wget http://busco.ezlab.org/v2/datasets/bacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/proteobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/rhizobiales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/betaproteobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/gammaproteobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/enterobacteriales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/deltaepsilonsub_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/actinobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/cyanobacteria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/firmicutes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/clostridia_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/lactobacillales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/bacillales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/bacteroidetes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/spirochaetes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/tenericutes_odb9.tar.gz

        

# Eukaryota

wget http://busco.ezlab.org/v2/datasets/eukaryota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/fungi_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/microsporidia_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/dikarya_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/ascomycota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/pezizomycotina_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/eurotiomycetes_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/sordariomyceta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/saccharomyceta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/saccharomycetales_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/basidiomycota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/metazoa_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/nematoda_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/arthropoda_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/insecta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/endopterygota_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/hymenoptera_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/diptera_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/vertebrata_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/actinopterygii_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/tetrapoda_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/aves_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/mammalia_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/euarchontoglires_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/laurasiatheria_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/embryophyta_odb9.tar.gz

wget http://busco.ezlab.org/v2/datasets/protists_ensembl.tar.gz

wget http://busco.ezlab.org/v2/datasets/alveolata_stramenophiles_ensembl.tar.gz


Data set은 해당 분류 안에 있는 sing copy ortholog gene set을 미리 만들어 놓은것이다. 

예를 들어 mammalia 안에는 포유동물들이 공통적으로 가지고 있는 single copy ortholog gene 들이 들어있다. 

종에 맞는 Database를 다운로드 받아서 BUSCO를 실행할 때 넣어주면 된다.



위의 프로그램을 모두 설치하였으면 BUSCO 실행 환경을 만들어 주어야한다.

BUSCO/config/config.ini.default파일이 있는데 user에 따라서 다른 환경이 필요할 때 이 config 파일을 여러 개 만들고 환경변수 설정을 해주어야 한다고 되어있다.


cp config.ini.dfault config.ini 

vi config.ini


파일을 열어보면 위의 설치한 파일들의 경로를 넣어주면 된다. 모두 넣고 나면


export BUSCO_CONFIG_FILE="/PATH/TO/BUSCO/config/config.ini"


설정이 모두 끝나면 다시 BUSCO 폴더로 돌아와서


python setup.py install 


설치가 진행된다. python 버전을 확인하고 진행해야 한다.


설치가 완료되면 /PATH/TO/BUSCO/sciprts/run_BUSCO.py 으로 진행하면 된다. 

run_BUSCO.py python 버전이 여러 개가 깔려 있다면 sciprt에 기본으로 잡히는 python경로를 수정해야 할 필요가 있을 수 있다.


python BUSCO.py -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [OTHER OPTIONS] 


-i query 파일의 위치

-l 위에서 받은 Data set 폴더 위치

-sp 로 종을 정할 수 있는데 가능한 종은 augustus에서 지원하고 있는 종만 해당된다. 해당 목록은 augustus 설치 글을 참조.


반응형

'bioinformatics' 카테고리의 다른 글

HMMER 설치 및 실행하기  (0) 2017.08.16
NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
GLOOME 설치 및 실행하기  (0) 2016.12.19
bowtie2에서 mismatch 허용하기  (0) 2016.09.13

+ Recent posts