반응형

CAFE v4.0 설치 및 실행하기




CAFE v4.0 Software for Computational Analysis of gene Family Evolution


gene gain and loss를 계산하기 위해 CAFE 설치를 해보기로 했다.


homepage - https://hahnlab.github.io/CAFE/index.html



다운로드는 홈페이지 내의 다운로드 탭에서 github 링크를 따라가서 cafe-version.tar.gz을 다운받는다.


tar xf cafe*tar.gz 


./configure 

make


CAFE/release/cafe 실행파일이 생성된다.



tutorial.pdf 파일을 보고 따라해 보자.


1. ensembl biomarket에서 종의 protein sequence를 받아야 한다.



ensembl genes, species를 고르고 attributes에서 sequence->peptide를 고르고 header information에서 trascript ID를 빼고 CDS length를 넣어주면 된다.


Results를 누르고 이메일로 받거나 그냥 다운받으면 된다.


다운받으면 모두 한 폴더에 넣은 뒤 압축을 풀면 된다.



2. longest isoform 만을 추려내야 한다.


cafe/manual/tutorial files에 가면 script가 존재한다.  (https://iu.box.com/v/cafetutorial-files)


튜토리얼 파일 전부를 받으면 용량이 5Gb가 넘어가니 필요한 부분만 따로 받는것이 좋다.


python python_scripts/cafetutorial_longest_iso .py -d twelve_spp_proteins/

cat twelve_spp_proteins/longest*.fa > makeblastdb_input.fa


-d 뒤에는 sequence가 있는 폴더명을 적어주면 되고 폴더 안에있는 .fa 확장자 파일을 읽어서 longest 파일만을 가져온다.

여러 종의 longest 파일이 각각 존재하니 한 파일로 묶어 주어야 한다.



3. blast로 align하기.


makeblastdb -in makeblastdb_input.fa -dbtype prot -out blastdb

blastp -num_threads 4 -db blastdb -query makeblastdb_input.fa -outfmt 7 -seg yes > blast_output.txt


시간이 상당히 많이 걸린다. tutorial에서는 align된 결과도 위의 tutorial files에서 제공하고 있다.



4. clustering 하기


mcl이 설치되어 있어야 한다. 


wget https://www.micans.org/mcl/src/mcl-latest.tar.gz

tar -zxf mcl-latest.tar.gz 

./configure --prefix=/PATH/TO/INSTALL/MCL

make && make install

export PATH=/PATH/TO/INSTALL/MCL/bin:$PATH


이후에 mcl를 사용해서 gene family 레벨에서 clustering을 진행한다.


grep -v "#" blast_output.txt | cut -f 1,2,11 > blast_output.abc

mcxload -abc blast_output.abc --stream-mirror --stream-neg-log10 -stream-tf 'ceil(200)' -o blast_output.mci -write-tab blast_output.tab

mcl blast_output.mci -I 3

mcxdump -icl out.blast_output.mci.I30 -tabr blast_output.tab -o dump.blast_output.mci.I30


tutorial에 있던 python script를 사용해서 결과를 만든다.

cafetutorial_mcl2rawcafe.py -i dump.blast_output.mci.I30 -o unfiltered_cafe_input.txt -sp "ENSAPLG ENSFALG ENSGALG ENSTGUG ENSMGAG"

cafetutorial_clade_and_size_filter.py -i unfiltered_cafe_input.txt -o filtered_cafe_input.txt -s



5. tree 계산하기


((( cow :0.09289 ,( cat :0.07151 , horse :0.05727) :0.00398) :0.02355 ,(((( orang

:0.01034 ,( chimp :0.00440 , human :0.00396) :0.00587) :0.00184 , gibbon

:0.01331) :0.00573 ,( macaque :0.00443 , baboon :0.00422) :0.01431)

:0.01097 , marmoset :0.03886) :0.04239) :0.03383 ,( rat :0.04110 , mouse

:0.03854) :0.10918) ;


위와 같은 NEWICK 포맷의 종간 거리가 계산되어 있는 파일이 필요하다.


튜토리얼에서는 이미 계산되어 있는 경우 그냥 가져다 쓰면 된다고 나와있지만 그런 경우는 별로 없을 것 같다.


ultrametric으로 새로 계산하기 위해서 r8s 라는 프로그램을 소개하고있다.



phylogenetic tree를 계산하는 방법은 세 가지 인데


Cladogram - branch의 길이는 의미 없음. 대략적으로 어떻게 분류되는지만 보여준다.

Phylogram - 길이는 유전적인 관계를 나타낸다. 같은 종류에 묶여있더라도 길이에 따라 더 가까운 관계가 존재한다.

Ultrametirc - Phylogram과 비슷하나 유전적인 관계보다 시간적인 요소에 가중치를 두었다. 



r8s는 phylogram으로 계산한 방식을 ultrametric으로 바꿀 수 있는 프로그램인데 링크가 다 깨져 있어서 접속 불가.



ultrametric tree를 그려주는 BEAST 프로그램으로 대체하였다.


2017/09/27 - [bioinformatics] - BEAST 설치 및 실행하기










반응형

'bioinformatics' 카테고리의 다른 글

Racon 설치 및 실행하기  (0) 2017.09.19
Phylip 설치 및 실행하기  (0) 2017.09.18
Synteny Circos plot 그리기  (0) 2017.08.30
Arrow/Quiver 설치 및 사용하기  (0) 2017.08.24
SyMap 설치 및 실행하기  (0) 2017.08.23

+ Recent posts