반응형

Synteny Circos plot 그리기.




2017/08/23 - [bioinformatics] - SyMap 설치 및 실행하기

2017/08/15 - [bioinformatics] - Circos plot 그리기.


두 프로그램을 사용하여 synteny circos plot을 그려보고자 한다.



SyMap에서는 


symap결과는 align이 끝난 뒤 SyMAP Queries 로 들어가 받을 수 있는 CSV 파일을 쓴다.


받을 때 반드시 Select columns에 가서 각 assembly의 start와 end를 체크해서 block의 시작과 끝을 다운받는다.


이제 csv 파일을 circos의 link 포맷으로 바꿔야 하는데 link의 포맷은 아래와 같다.


...
hs1 100 200 hs2 250 300
hs1 400 550 hs3 500 750
hs1 600 800 hs4 150 350
...


assembly1 start1 end1 assembly2 start2 end2


의 양식으로 바꾸면 된다. 여기서 assembly1과 assembly2는 당연히 circos의 karyotype을 설정할 때 넣어줬던 이름과 같아야한다.


또한 link의 개수가 25000개를 넘어가면 너무 많다는 경고와 함께 너무 많은 링크는 해석하기 어려울 것이라고 하면서 실행되지 않는다. 


  but the maximum is currently set at [25000]. To increase this number change

  max_links in etc/housekeeping.conf. Keep in mind that drawing that many links

  may create an image that is too busy and uninterpretable.


etc/housekeeping.conf에서 변수 조절 할 수 있으나 별로 추천하지 않는다. 차라리 block의 사이즈에 제한을 두고 link의 개수를 줄이는 것이 좋다.



Circos에서는 configure파일을 조정해줘야 하는데


1. 두 assembly의 karyotype을 모두 불러오기.

2. 위의 파일을 불러오기.

3. color, orientation 조절하기.


등을 모두 설정하면 아래와 같은 그림을 그릴 수 있다.




실제로 위의 그림을 그릴 때 사용한 옵션은 각각


1.


karyotype = circos/circos-0.69-/data/karyotype/assembly1.txt,circos/circos-0.69-3/data/karyotype/assembly2.txt


2.


<links>


<link>

ribbon = no

file          = assembly1_to_assembly2.link

color         = black_a5

radius        = 0.95r

#bezier_radius = 0.1r

thickness     = 1

</link>


</links>


3. 


chromosomes_order = assemblya1,assemblya2,assemblya3,assemblya4,assemblya5,assemblya6,assemblya7,assemblya8,assemblya9,assemblya10,assemblya11,assemblya12,assemblya13,assemblya14,assemblya15,assemblya16,assemblya17,assemblya18,assemblya19,assemblya20,assemblya21,assemblya22,assemblya23,assemblya24,assemblya25,assemblya26,assemblya27,assemblya28,assemblya29,assemblya30,assemblya31,assemblyaX,assemblybX,assemblyb31,assemblyb30,assemblyb29,assemblyb28,assemblyb27,assemblyb26,assemblyb25,assemblyb24,assemblyb23,assemblyb22,assemblyb21,assemblyb20,assemblyb19,assemblyb18,assemblyb17,assemblyb16,assemblyb15,assemblyb14,assemblyb13,assemblyb12,assemblyb11,assemblyb10,assemblyb9,assemblyb8,assemblyb7,assemblyb6,assemblyb5,assemblyb4,assemblyb3,assemblyb2,assemblyb1

chromosomes_reverse = assemblybX,assemblyb31,assemblyb30,assemblyb29,assemblyb28,assemblyb27,assemblyb26,assemblyb25,assemblyb24,assemblyb23,assemblyb22,assemblyb21,assemblyb20,assemblyb19,assemblyb18,assemblyb17,assemblyb16,assemblyb15,assemblyb14,assemblyb13,assemblyb12,assemblyb11,assemblyb10,assemblyb9,assemblyb8,assemblyb7,assemblyb6,assemblyb5,assemblyb4,assemblyb3,assemblyb2,assemblyb1


그리고 input으로 넣는 link파일에서 크로모좀이 같으면 color=크로모좀을 넣고

다르면 color=black을 넣는다.


assemblya8 64927554        64987328        assemblyb8 67051330        67111104        color=chr8

assemblya26        372029  420198  assemblyb4 25320273        25373211        color=black


3번이 조금 헷갈릴 수 있을거 같은데 assembly a와 assembly b를 각각 assembly 이름으로 바꿔놓으면 된다.




반응형

'bioinformatics' 카테고리의 다른 글

Phylip 설치 및 실행하기  (0) 2017.09.18
CAFE v4.0 설치 및 실행하기  (0) 2017.09.11
Arrow/Quiver 설치 및 사용하기  (0) 2017.08.24
SyMap 설치 및 실행하기  (0) 2017.08.23
GMAP 설치 및 실행하기  (0) 2017.08.22
반응형

SyMap 설치 및 실행하기




SyMap은 university of arizona의 arizona genomics computational lab에서 개발한 프로그램으로


두 개 이상의 genome간의 synteny 분석을 하는데 사용되는 tool이다.


홈페이지 : http://www.agcol.arizona.edu/software/symap/index.html


Soderlund et al., 2006, SyMAP: A system for discovering and viewing syntenic regions of FPC maps, Genome Res. 16:1159-1168.

Soderlund et al., 2011, SyMAP v3.4: a turnkey synteny system with application to plant genomes, Nucleic Acids Res. 39(10):e68.



대부분의 synteny alignment 프로그램은 2개 이상의 genome을 지원하지 않는다. 


SyMap은 아래와 같이 Rice의 Chr1을 기준으로 양 옆으로  genome을 놓고 alignment 결과를 비교할 수 있다.


하지만 Chromosome 하나씩 골라서 비교를 하고 있기 때문에 genome 전체적인 synteny map을 보고싶다면 circos plot을 그리는 것을 추천한다.





circos plot으로 그리면 아래와 같이 나온다. 



3D version으로 여러개의 chromosome을 비교할 수도 있지만 아래의 결과는 서버 내에서 graphical support가 있어야 그릴 수 있다. (VGA 카드)




설치 및 실행 방법은


실행은 GUI를 쓰고 있기 때문에 DISPLAY가 필요하다.


terminal 프로그램을 통해서 리눅스 서버에서 작업을 하고 있다면 X11 DISPLAY가 필요하다고 나올 것이다.


xming 프로그램을 추천한다.


xming을 설치하고 실행한 후 다시 symap을 실행하면 열린다.



symap -20480N -no3d -p 16



으로 실행하면 20G의 메모리를 사용하며 CPU는 16개를 사용하고 3D plot은 찍지 않겠다는 의미로 실행이 된다.


메모리 디폴트 값이 매우 적기 때문에 large genome을 사용하고있다면 필히 메모리를 늘려야 하며 3d 는 서버에 VGA카드가 없으면 해당 옵션을 넣어주지 않으면 프로그램 실행 도중 에러가 날 수 있다. CPU는 프로그램 내에서도 바꿀 수 있기 때문에 넣지 않아도 무관하다.




실행이 정상적으로 되면 위와 같은 화면이 나온다.


여기서 팁을 주자면 모니터 좌측 상단에 실행이되며 이동이 불가능한 상태로 켜지는데 마우스를 창 가장 우측이나 하단에 놓고 사이즈를 조절하면 




위와같이 최대화가 보이도록 조절 할 수 있게 된다!


Project로 각각의 genome과 annotation을 넣어서 Project끼리 비교를 하게 되는데 /PATH/TO/INSTALL/SYMAP/data/pseudo/ 안에 폴더를 생성하면 uncategorized 위치에 생성한 폴더 명과 일치하는 project가 생긴다. 


Project를 로딩 후 각각 genome fasta 파일과 annotation 파일의 경로를 넣은 뒤 loading하면 alignment 준비는 끝난다.


Alignment는 전체 genome을 쪼개서 주어진 CPU를 사용하여 진행하는데 테스트로 한 번 돌리면 포유동물 2.5Gb가 30개로 쪼개진다. CPU를 3, 5, 6개로 주면 시간을 최적화 할 수 있다.



Align된 결과는 data/pseudo_pseudo/ 폴더 안에서 찾을 수 있다. block이나 anchor 파일을 찾으면 block단위로 찾을 수 있다.

반응형

'bioinformatics' 카테고리의 다른 글

Synteny Circos plot 그리기  (0) 2017.08.30
Arrow/Quiver 설치 및 사용하기  (0) 2017.08.24
GMAP 설치 및 실행하기  (0) 2017.08.22
AGOUTI 설치 및 실행하기  (0) 2017.08.21
Augustus 설치 및 실행하기  (0) 2017.08.16

+ Recent posts