반응형

StatsBase 모듈 사용하기




Julia에서 수치를 다 구한 뒤에 그에 대한 stats을 구할 때 사용할 수 있다.


Array에다가 값을 다 넣은 뒤에 summarystats 함수를 사용하면 편하다.


but Array type에 따라서 자꾸 에러가 나서 정리해 보고자 한다.


Summarystats 함수는 real-valued array를 받아서 mean, minimum, 25 percentile, median, 75 percentile and maximum을 구해준다.


help?> summarystats()

  summarystats(a)


  Compute summary statistics for a real-valued array a. Returns a SummaryStats object containing the mean,

  minimum, 25th percentile, median, 75th percentile, and maxmimum.



julia> summarystats(a)

Summary Stats:

Mean:           2.800000

Minimum:        1.000000

1st Quartile:   2.000000

Median:         3.000000

3rd Quartile:   4.000000

Maximum:        4.000000



먼저 summarystats()를 사용하기 위해서는 StatsBase 모듈을 불러와야한다.


using StatsBase


만약 StatsBase가 설치되어 있지 않다면


Pkg.add("StatsBase")


로 설치할 수 있다.


설치된 모듈은 $HOME/.julia/lib/version/ 안에 있다.



사용법은


summarystats는 real array를 받기 때문에 julia에서는 array선언할 때 아래와 같이 선언해 줘야 한다.


testarray = Array{Real}(0)


Array(Real,0) 으로 선언할 수도 있지만 이렇게 선언하고 코드를 돌리면 


WARNING: Array{T}(::Type{T}, m::Int) is deprecated, use Array{T}(m) instead.


위와 같은 선언은 deprecated되었다고 말한다.


Array를 선언한 후에 값을 넣을 때는 append!를 하면 된다.


append!(testarray,"value")


append!가 끝나면 아래와 같이 마무리 해주면 된다.


result = summarystats(testarray)



println(result)


Summary Stats:

Mean:           290.114559

Minimum:        2.000000

1st Quartile:   89.000000

Median:         128.000000

3rd Quartile:   180.500000

Maximum:        95925.000000


결과가 제대로 나오는 것을 확인할 수 있다!

반응형
반응형

cURL 로컬 설치하기




Julia에서 Pkg.add를 하려고 했는데 아래와 같은 에러메세지가 나타났다.


julia> Pkg.add("StatsBase")

INFO: Installing Plots v0.12.2

INFO: Building Plots

INFO: Cannot find deps/plotly-latest.min.js... downloading latest version.

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current

                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0

curl: (35) SSL connect error

==================================================[ ERROR: Plots ]==================================================


LoadError: failed process: Process(`curl -L -f -o /home/kyoungwoo/.julia/v0.6/Plots/deps/plotly-latest.min.js https://cdn.plot.ly/plotly-latest.min.js`, ProcessExited(35)) [35]

while loading /home/kyoungwoo/.julia/v0.6/Plots/deps/build.jl, in expression starting on line 7


====================================================================================================================


==================================================[ BUILD ERRORS ]==================================================


WARNING: Plots had build errors.


 - packages with build errors remain installed in /home/kyoungwoo/.julia/v0.6

 - build the package(s) and all dependencies with `Pkg.build("Plots")`

 - build a single package by running its `deps/build.jl` script


====================================================================================================================

INFO: Package database updated

INFO: METADATA is out-of-date — you may not have the latest version of StatsBase

INFO: Use `Pkg.update()` to get the latest versions of your packages


curl이 제대로 자동하지 않는 것 같아 shell 화면에서 명령어만 따로 실행해 보았다..


Thu Aug 24 15:21:26 [kyoungwoo@biglab-master gtf_to_fasta]$ curl -L -f -o /home/kyoungwoo/.julia/v0.6/Plots/deps/plotly-latest.min.js https://cdn.plot.ly/plotly-latest.min.js

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current

                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

curl: (35) SSL connect error


SSL connect error 35가 나오는 것을 확인하였다.


구글링해서 문제 해결방법을 찾아보니 curl의 버전이 낮아서 최신버전을 설치하라고 해서



local로 cURL을 설치하는 법을 찾아보았다.



들어가서 다운로드 후 configure 파일을 생성하기 위해서는 ./buildconf 를 실행해 줘야 한다.


buildconf 후에 configure 파일이 만들어지면 


./configure --prefix=/PATH/TO/INSTALL/CURL

make && make install


export PATH = /PATH/TO/INSTALL/CURL/bin:$PATH

export PATH = /PATH/TO/INSTALL/CURL/lib:$PATH


끝!


Julia 명령도 정상적으로 잘 실행되는 것을 확인했다.


반응형

'Computer Science > linux' 카테고리의 다른 글

GMP 설치하기  (1) 2017.09.19
GCC 설치하기  (1) 2017.09.18
Repeatmasker 설치  (0) 2017.05.05
GBrowse2 설치하기  (0) 2017.04.25
Perl 설치 및 실행하기  (0) 2017.04.25
반응형

PacificBiosciences 에서 제공하는 Arrow/Quiver 설치 및 사용하기.




Pacbio only assembly는 Canu나 Falcon 등의 프로그램으로 진행됨. assembly가 끝나고 난 뒤 polish과정을 거쳐야 하는데 polish는 SNPs이나 small tandem repeat등으로 인해 assembly에 생기는 작은 오류를 수정하는 과정이다.


과거에는 Quiver라는 이름으로 제공되었으나 legacy가 되고 Arrow로 이름이 바뀌었다.

(정확히는 프로그램 이름은 여전히 Quiver이나 안에 있는 알고리즘이 Arrow가 쓰이는 것이다.)



git hub에서 GenomicConsensus라는 이름으로 제공되는 패키지를 받아서 설치해야한다.



GenomicConsensus는 Python 모듈이며 2.7+ 버전을 요구한다. (3.X버전은 안됨)


git clone 설치 후 


python setup.py install


로 설치 가능한데 


아래와 같은 dependency가 필요하다.


        'pbcore >= 1.2.9',

        'pbcommand >= 0.3.20',

        'numpy >= 1.6.0',

        'h5py >= 2.0.1',

        'ConsensusCore >= 1.0.1'

        # , 'ConsensusCore2 >= 0.9',

 

다른 모듈들은 pip 등으로 설치 가능하나 ConsensusCore는 따로 설치해 줘야 한다.


ConsensusCore2는 legacy로 들어간듯 하고 그냥 ConsensusCore를 설치하면 된다.



Pacbio에서 만든 파이썬 모듈같다. 위와 마찬가지로


Python setup.py install 


하면 되는데 이번엔 SWIG를 설치하라고 한다....



SWIG는 인터페이스 컴파일러라는데 정확히는 뭔지 파악 불가..


http://www.swig.org/download.html


설치방법은 일반적인 프로그램이랑 같다.


./configure --prefix=/PATH/TO/INSTALL/SWIG

make && make install


export PATH=/PATH/TO/INSTALL/SWIG/bin:$PATH


SWIG을 설치하고 다시 ConsensusCore2를 설치하면 된다.






반응형

'bioinformatics' 카테고리의 다른 글

CAFE v4.0 설치 및 실행하기  (0) 2017.09.11
Synteny Circos plot 그리기  (0) 2017.08.30
SyMap 설치 및 실행하기  (0) 2017.08.23
GMAP 설치 및 실행하기  (0) 2017.08.22
AGOUTI 설치 및 실행하기  (0) 2017.08.21
반응형

SyMap 설치 및 실행하기




SyMap은 university of arizona의 arizona genomics computational lab에서 개발한 프로그램으로


두 개 이상의 genome간의 synteny 분석을 하는데 사용되는 tool이다.


홈페이지 : http://www.agcol.arizona.edu/software/symap/index.html


Soderlund et al., 2006, SyMAP: A system for discovering and viewing syntenic regions of FPC maps, Genome Res. 16:1159-1168.

Soderlund et al., 2011, SyMAP v3.4: a turnkey synteny system with application to plant genomes, Nucleic Acids Res. 39(10):e68.



대부분의 synteny alignment 프로그램은 2개 이상의 genome을 지원하지 않는다. 


SyMap은 아래와 같이 Rice의 Chr1을 기준으로 양 옆으로  genome을 놓고 alignment 결과를 비교할 수 있다.


하지만 Chromosome 하나씩 골라서 비교를 하고 있기 때문에 genome 전체적인 synteny map을 보고싶다면 circos plot을 그리는 것을 추천한다.





circos plot으로 그리면 아래와 같이 나온다. 



3D version으로 여러개의 chromosome을 비교할 수도 있지만 아래의 결과는 서버 내에서 graphical support가 있어야 그릴 수 있다. (VGA 카드)




설치 및 실행 방법은


실행은 GUI를 쓰고 있기 때문에 DISPLAY가 필요하다.


terminal 프로그램을 통해서 리눅스 서버에서 작업을 하고 있다면 X11 DISPLAY가 필요하다고 나올 것이다.


xming 프로그램을 추천한다.


xming을 설치하고 실행한 후 다시 symap을 실행하면 열린다.



symap -20480N -no3d -p 16



으로 실행하면 20G의 메모리를 사용하며 CPU는 16개를 사용하고 3D plot은 찍지 않겠다는 의미로 실행이 된다.


메모리 디폴트 값이 매우 적기 때문에 large genome을 사용하고있다면 필히 메모리를 늘려야 하며 3d 는 서버에 VGA카드가 없으면 해당 옵션을 넣어주지 않으면 프로그램 실행 도중 에러가 날 수 있다. CPU는 프로그램 내에서도 바꿀 수 있기 때문에 넣지 않아도 무관하다.




실행이 정상적으로 되면 위와 같은 화면이 나온다.


여기서 팁을 주자면 모니터 좌측 상단에 실행이되며 이동이 불가능한 상태로 켜지는데 마우스를 창 가장 우측이나 하단에 놓고 사이즈를 조절하면 




위와같이 최대화가 보이도록 조절 할 수 있게 된다!


Project로 각각의 genome과 annotation을 넣어서 Project끼리 비교를 하게 되는데 /PATH/TO/INSTALL/SYMAP/data/pseudo/ 안에 폴더를 생성하면 uncategorized 위치에 생성한 폴더 명과 일치하는 project가 생긴다. 


Project를 로딩 후 각각 genome fasta 파일과 annotation 파일의 경로를 넣은 뒤 loading하면 alignment 준비는 끝난다.


Alignment는 전체 genome을 쪼개서 주어진 CPU를 사용하여 진행하는데 테스트로 한 번 돌리면 포유동물 2.5Gb가 30개로 쪼개진다. CPU를 3, 5, 6개로 주면 시간을 최적화 할 수 있다.



Align된 결과는 data/pseudo_pseudo/ 폴더 안에서 찾을 수 있다. block이나 anchor 파일을 찾으면 block단위로 찾을 수 있다.

반응형

'bioinformatics' 카테고리의 다른 글

Synteny Circos plot 그리기  (0) 2017.08.30
Arrow/Quiver 설치 및 사용하기  (0) 2017.08.24
GMAP 설치 및 실행하기  (0) 2017.08.22
AGOUTI 설치 및 실행하기  (0) 2017.08.21
Augustus 설치 및 실행하기  (0) 2017.08.16
반응형

GMAP 설치 및 실행하기




GMAP: a genomic mapping and alignment program for mRNA and EST sequences

논문 https://doi.org/10.1093/bioinformatics/bti310



2005년 bioinformatics에 나온 논문으로 mRNA나 EST sequence를 genome에 alignment해주는 프로그램 이다.


꾸준히 업데이트 되는 중 


다운로드는 http://research-pub.gene.com/gmap/



최신 버전을 다운로드 받은 후


tar -zxf http://research-pub.gene.com/gmap/src/gmap-gsnap-*.tar.gz

./configure --prefix=/PATH/TO/INSTALL/GMAP

make && make install


gmap을 사용하기 위해서는 먼저 gmap_build를 해야함. 기타 alignment프로그램과 마찬가지로 indexing 작업이 선행되어야 한다.


gmap_build -d genomename genome.fasta


indexing이 끝나면 파일은 gmap/share/폴더로 들어간다. 다른 폴더로 옮기지 않으면 밑에 gmap 실행에서 -D를 바꿀 필요는 없다.


gmap -D PATH/TO/GENOME/DIRECTORY -d genomename -t threads -f output_file_format genome.fasta


-d 에는 위에서 genome build할 때 쓴 genomename을 쓰면 된다. 이후 parameter는 직접 옵션을 보고 넣으면 된다.


가능한 genomename을 보고 싶으면 -d 뒤에 ? 를 넣어서 실행하면 가능한 값을 보여준다.








반응형

'bioinformatics' 카테고리의 다른 글

Arrow/Quiver 설치 및 사용하기  (0) 2017.08.24
SyMap 설치 및 실행하기  (0) 2017.08.23
AGOUTI 설치 및 실행하기  (0) 2017.08.21
Augustus 설치 및 실행하기  (0) 2017.08.16
HMMER 설치 및 실행하기  (0) 2017.08.16

+ Recent posts