반응형

 

 

전문연구요원 기초군사훈련 -1

 

2019/3/21~ 2019/4/18까지 논산 육군훈련소에 다녀온 내용을 작성해보고자 한다.

 

관련한 포스팅이 많지만 그래도 가장 최근에 다녀왔으니 새로운 내용들을 추가

 

다녀오자마자 작성하려고 했지만 귀찮아서 미루다 보니 벌써 3주 전이다. 

 

안에 있을 때는 엄청 안 가던 시간이 밖에서는 순식간이다. ㅋㅋㅋ

 

 

서론은 각설하고 이 글을 볼 입소 예정자들에게 도움이 될 만한 얘기 위주로 작성해보고자 한다.

 

 

 

가장 중요한 준비물

 

본인의 적응력이 무한대라고 생각하면 가져가야 할 물품은 하나도 없다. 최소한의 물품은 모두 훈련소에서 제공하고 있으니 나올 때의 계절을 고려해서 옷만 입고 가면 된다.

 

하지만 그렇게 갔다가는 없어서 아쉬울 때가 많을 것이다.

 

그래서 등급별로 나누어 가져 가면 좋은 물품을 정리해보고자 한다.

 

 

중요도 ★

귀마개 - 한 생활관에 대략 12명, 두 생활관이 붙어있으니 25명가량이 한 공간에서 생활한다고 보면 된다. 무조건 이 중에 한 명은 코를 크게 골기 때문에 챙겨가야 한다. 나중에 보급으로 주지만 그때까지 버티느니 하나 사서 가자.

 

가방 - 다른 포스팅 중에는 캐리어 가방을 추천하는 곳이 없던데 캐리어 강력하게 추천한다. 퇴소할 때 군화와 군복 등을 들고 오려면 부피가 상당하기 때문에 번거롭다. 캐리어 있으면 좋았을 텐데 하면서 퇴소하는 스스로를 발견할 것이다. 크기는 기내에 가져갈 수 있는 크기 중에 제일 큰 정도? 더 클 이유가 없다. 그래도 캐리어를 가져가기 부담스럽다면 큰 종이백 등을 많이 챙겨가자 남으면 다른 사람을 줘도 되나 없으면 많이 아쉽다.

 

상비약 - 아프면 서럽다. 입소하면 상비약은 분대장에게 제출하라고 하지만 가방 구석에 넣어놓고 아플 때 스스로 꺼내먹자. 검사 그렇게 빡빡하게 안 한다. 타이레놀과 종합감기약이면 충분할 것 같다. 

 

중요도 ★

 

스킨/로션/샴푸/클렌징 폼/선크림 - 압수물품 아니다. 개인위생 용품은 다 챙겨가자. 미용비누 하나 주는데 이걸로 씻는 건 좀... 그렇다. 올인원 제품 사가면 유용하게 쓸 수 있다.

 

시계 - 군용 시계라고 싼 거 사서 오는 사람 많다. 다이소에서 만원 이하에 라이트만 켜지는 걸로 사 와도 되지만 그냥 적당히 비싼 거 들고 와도 된다. 각개전투 이외에는 시계에 손상이 될 만한 훈련이 없다. 이건 여름에 가서 하복 입고 훈련받으면 다를 수도 있을 것 같으니 스스로 결정하기 바란다.

 

보조배터리 - 퇴소할 때 핸드폰은 써야 할 것 아닌가. 빠릿빠릿한 폰은 한 달 동안 꺼둬도 50%가량 남아있을 수 있는데 불안하니 보조배터리 하나 들고 가자. 

 

중요도 ★

 

포카리 가루 - 크게... 중요하진 않았던 것 같다. 있으면 좋은데 없어도 그만 정도? 

 

편지지, 편지봉투 - 훈련소에서 계속 제공해준다. 이쁜 걸로 보내고 싶으면 가져가서 쓰자

 

우표 - 우표를 붙이지 않으면 군사우편으로 가는데 이게 더 느리다고 한다. 우표는 사서 가자. 상대방에게 편지봉투 안에 우표를 넣어달라고 해서 받을 수도 있으니 10개 정도 가져가고 필요하면 달라고 하면 충분하다.

 

팔꿈치, 무릎 보호대 - 각개전투 시 있으면 좋기는 한데 훈련소에서 지급되는 물품으로 충분히 커버 가능하다. 보급되는 양말을 잘라서 덧대는 정도만 해도 전혀 까이지 않았다.

 

종합비타민 - 따로 비타민을 가져가서 챙겨 먹을 수 있다. 건강을 생각한다면 한 통쯤 가져가도 괜찮을 것 같다.

 

면봉 - 총기 손질 시 유용하게 쓰이기는 하나 많이 가져오는 사람이 한 명쯤은 있다. 빌려서 써도 무방.

반응형
반응형

* 본 리뷰는 어떠한 상업적 지원도 받지 않고 작성하였음.


벤큐 FHD 프로젝터 MH550 리뷰




지극히 아마추어적인 리뷰겠지만 누군가에게는 도움이 될 수도 있기에 작성해봄.



큰 화면으로 콘솔 게임 + TV를 보고 싶은데 거치할 만한 공간이 애매해서 벽에다가 프로젝터를 설치하고 싶어 짐. 


구매할 때 고려 했던점은


1. FHD 화질일 것.


2. 휴대용이 아닐 것.


3. 비교적 최근에 출시됐으며 인지도 있는 브랜드일 것.



화질은 여기저기서 후기를 많이 봤는데 FHD 이하면 계속 아쉬움이 남는다고 하여 바로 FHD 급으로 감. 


충분히 만족하고 있음. HD 급이였으면 확실히 아쉬움이 있었을 것 같음. 


휴대용이 아닌 이유는 같은 가격이면 당연히 크기가 큰 게 스펙이 더 좋으리라 생각함. 

밖에 나가서 볼 일이 1년에 1번도 있을까 말까 하기 때문에 그냥 거치용으로 삼. 

근데 거치용은 낮은 스펙과 가격이 거의 없음.. 회의용 뭐 이런식으로 많이 나와서 그런듯함.


출시는 당연히 최근에 된 것이 기술적으로 발전했을 테니까.. A/S도 편할 듯하고.. 앞에 2개보다는 많이 고려하지는 않음.




모두 만족하면서도 비교적 저렴한 가격은 벤큐 MH550밖에 없었음.


출시된 지 6개월이 지난 시점에도 불구하고 인터넷 후기도 많이 없었지만 브랜드 인지도를 믿고 구매함.



장점 - 


FHD 급 프로젝터임에도 불구하고 저렴한 가격

높은 루멘안시로 형광등 아래에서도 어느 정도 잘 보임. (태양광아래서는 당연히 잘 안보임.)

hdmi 포트가 두 개인것도 은근히 유용함.


단점 -

비슷한 급의 제품에 비해 투사거리가 많이 필요함. 거리가 3m 정도 돼서 괜찮을 거라고 생각했으나 80인치가 한계임. 좀 더 크게 볼 수 있었으면 하는 아쉬움이 있음.

회의용 프로젝터는 대부분 지원하지 않는 기능이지만 안드로이드나 airplay 등이 지원되면 좋았을거 같긴 함...




반응형
반응형

Gene id conversion in R




R에서 gene id로부터 다른형식의 geneid 값을 가져오는 방법에 대해서 설명하고자 한다.

예시는 human의 ensembl geneid를 입력값으로 받아 hgnc_symbol로 바꾸는 것이지만 종을 다르게 하거나 hgnc_symbol이 아닌 다른 정보도 얼마든지 가져올 수 있다.

users guide 주소 :


library(biomaRt)

mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
G_list <- getBM(filters= "ensembl_gene_id", attributes= c("ensembl_gene_id","hgnc_symbol"),values=df$Geneid,mart= mart)

위의 코드는 df$Geneid에 ensembl geneid가 있는 상태에서 매칭되는 hgnc_symbol을 가져와 g_list에 저장한 것이다. 

useDataset에서 "hsapiens"를 다른 종으로 바꿀 수 있으며

getBM에서 attributes를 hgnc_symbol이 아니라 다른정보 (enterzgene, refseq_mrna, interpro, interpro_description 등)으로 바꾸면 해당 정보를 가져올 수 있다. 


물론 아래처럼 사용하여 동시에 가져올 수도 있다.


ipro = getBM(attributes=c("refseq_mrna","interpro","interpro_description"), filters="refseq_mrna", values=refseqids, mart=mart)


## refseq_mrna interpro interpro_description ## 1 NM_000546 IPR002117    p53 tumour suppressor family ## 2 NM_000546 IPR008967    p53-like transcription factor, DNA-binding ## 3 NM_000546 IPR010991    p53, tetramerisation domain ## 4 NM_000546 IPR011615    p53, DNA-binding domain ## 5 NM_000546 IPR012346    p53/RUNT-type transcription factor, DNA-binding domain superfamily


어떤 정보를 가져올 수 있는지는 위의 users guide를 참조하기 바란다.

listAttributes(mart)를 입력하면 사용한 데이터셋에 대한 가능한 attributes가 나온다.


> head(listAttributes(mart),10)

                            name                  description         page

1                ensembl_gene_id               Gene stable ID feature_page

2        ensembl_gene_id_version       Gene stable ID version feature_page

3          ensembl_transcript_id         Transcript stable ID feature_page

4  ensembl_transcript_id_version Transcript stable ID version feature_page

5             ensembl_peptide_id            Protein stable ID feature_page

6     ensembl_peptide_id_version    Protein stable ID version feature_page

7                ensembl_exon_id               Exon stable ID feature_page

8                    description             Gene description feature_page

9                chromosome_name     Chromosome/scaffold name feature_page

10                start_position              Gene start (bp) feature_page



G_list에 해당 정보를 담았다면 이를 기존의 df와 합치는 과정이 필요하다. 



1. df$Geneid와 G_list$ensembl_gene_id의 값이 같을 때 두 data frame을 합치는 방식이다.


원래는 이 방법을 사용하고 있었으나 ensembl_gene_id가 위의 데이터 베이스에 없을 때 결과 df의 사이즈가 입력할 때와 달라지는 것을 확인하여 2번의 방법을 사용하는 것을 추천한다.


df <- merge(df,G_list,by.x="Geneid",by.y="ensembl_gene_id")



2. df에 hgnc_symbol 열을 미리 만들고 내용은 공란으로 채워넣는다. 공란으로 채우는 이유는 ensembl gene id가 데이터 베이스 없거나 또는 ensembl gene id는 있지만 여기에 매칭되는 hgnc symbol이 없어도 행을 유지시키기 위함이다.


아래의 코드를 사용하면 df$Geneid와 G_list$ensembl_gene_id가 매칭될 때 G_list$hgnc_symbol의 값을 df$hgnc_symbol에  넣는 다는 의미이다.


df$hgnc_symbol = ""
df["hgnc_symbol"] = lapply("hgnc_symbol", function(x) G_list[[x]][match(df$Geneid, G_list$ensembl_gene_id)])

df$hgnc_symbol을 확인해보면 값이 없는 부분은 공란으로 남아있고 match된 부분은 모두 ensembl gene id에 대응하는hgnc_symbol값이 들어 있을 것이다.


Reference -

https://www.bioconductor.org/packages/devel/bioc/vignettes/biomaRt/inst/doc/biomaRt.html




반응형
반응형

KEGG Mapper 사용법




KEGG Mapper는 KEGG PATHWAY에 실제 유전자의 발현량을 색으로 입혀 시각적으로 한 눈에 알아볼 수 있게 하는데 도움을 주는 웹 기반 프로그램이다.


홈페이지 : 

https://www.genome.jp/kegg/mapper.html




위의 예시에선 유전자에 붉은 색은 높은 발현량을 의미한다.


실제 데이터를 만들어 넣는 법은 매우 간단하다.


위의 홈페이지에서 Color Pathway 항목으로 가면 데이터를 입력할 수 있는 항목들이 있다.




Select KEGG pathway map : 색을 입히고자 하는 kegg pathway의 category를 입력하면 된다.


Enter data : examples를 보면 어떤식으로 데이터를 입력해야하는지 보여주는데 아래에서 실제 데이터로 설명하도록 하겠다.


Option : 색을 직접 RGB로 입력하거나 상대적인 값을 측정해 색을 부여하는 방식을 고를 수 있다.



여기서 가장 까다로운게 입력 데이터의 유전자 ID를 KEGG ID로 맞춰야 한다는 것인데 이는 아래 포스팅을 참조하면 해결할 수 있다.


2018/11/15 - [bioinformatics] - Gene ID conversion


위의 포스팅에서 엑셀로 KEGG Gene ID를 찾은 후 아래처럼 입력한다.




저장은 반드시 텍스트 (탭으로 분리) (*.txt)로 저장해야 한다.



위와같은 결과를 얻을 수 있다. 


condtion을 3개 주었기 때문에 가장 위에 contion1,2,3 탭이 보인다. 클릭을 하면 색만 바뀌기 때문에 비교하기 쉽다.


Reference -

https://www.genome.jp/kegg/mapper.html









반응형

'bioinformatics' 카테고리의 다른 글

DNA methylation  (0) 2019.06.18
NGS 기술을 이용한 Methylation 분석  (0) 2019.06.17
Gene ID conversion  (0) 2018.11.15
SRA data 다운로드받기  (1) 2018.10.17
oncotator 설치 및 실행하기  (0) 2018.10.04
반응형

Gene ID conversion




하나의 유전자를 지칭하는 명칭은 ensembl, kegg, refseq 등 분석 방법에 따라 달라지고 분석 중에 gene id를 다른 방식으로 맞춰야 하는 일들이 생긴다.


R에서 biomaRt등의 라이브러리를 사용하여 스크립트 내에서 변환하는 방법도 있지만 web 기반의 tool를 사용해서 바꾸는 방법에 대해서 설명하고자 한다.


홈페이지 : 

https://biodbnet-abcc.ncifcrf.gov/db/db2db.php



ID List에 변환하고자 하는 유전자 목록을 넣었고 ID가 ensembl ID이기 때문에 input에는 Ensembl Gene ID, 결과는 Gene Symbol로 맞추었다.


Organism은 9606이 human이며 다른 종을 찾고싶다면 Taxon ID를 클릭해서 들어가면 검색이 가능하다. 이 항목은 option이기 때문에 꼭 넣어주어야 하는 것은 아니다.




입력을 많이 넣지 않았기 때문에 넣어준 ID가 하나 빼고는 다 치환된 것을 확인하였다. 


Result in Excel을 클릭하여 엑셀파일로 받으면 기존의 데이터에 덮어쓰거나 추가 열을 만드는 등 편집하기 쉽다.


Reference -

https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php


반응형

'bioinformatics' 카테고리의 다른 글

NGS 기술을 이용한 Methylation 분석  (0) 2019.06.17
KEGG Mapper 사용법  (2) 2018.11.15
SRA data 다운로드받기  (1) 2018.10.17
oncotator 설치 및 실행하기  (0) 2018.10.04
liftover하기  (0) 2018.09.28
반응형

SRA data 다운로드받기

 

 

 

NCBI에서 SRA data를 받을 수 있는 방법은 세 가지 이다.

 

1. SRA Toolkit

 

NCBI SRA 다운로드 페이지 :

https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/

 

압축을 풀면 바로 bin폴더가 생성되어 있고 이 중에 fastq-dump를 사용하여 받을 수 있다.

 

사용법은 

 

fastq-dump -A [accession number]

2. ascp utility

 

aspera 홈페이지 :

https://downloads.asperasoft.com/en/downloads/50

 

sh 파일을 다운르도 후 root로 진행하면 된다. (보류)

 

3. wget

 

ascp가 고속 전송을 지원하기 때문에 FTP를 사용하는 것 보다 10배는 빠르지만 별도의 설치나 key파일을 필요로 하기 때문에 초기 셋팅이 번거롭다.

 

wget은 가장 간단하게 사용할 수 있지만 속도가 느리다.

 

wget /sra/sra-instant/reads/ByRun/sra/{SRR|ERR|DRR}/<first 6 characters of accession>/<accession>/<accession>.sra
 
예를들어 받고자 하는 넘버가 SRR304976이라면 아래처럼 입력하면 된다.
wget ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR304/SRR304976/SRR304976.sra

 

아래의 bash script를 만들고 "sh sradownload.sh SRR304976" 라고 입력하면 sra를 다운받아서 fastq까지 만들어준다.

 

wget ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/${1:0:3}/${1:0:6}/${1}/${1}.sra

fastq-dump --split-3 ${1}.sra

 

Reference -

https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/

 

반응형

'bioinformatics' 카테고리의 다른 글

KEGG Mapper 사용법  (2) 2018.11.15
Gene ID conversion  (0) 2018.11.15
oncotator 설치 및 실행하기  (0) 2018.10.04
liftover하기  (0) 2018.09.28
DESeq2에서 heatmap, PCA, MA, volcano plot 그리기  (0) 2018.08.31
반응형

somatic mutation과 germline mutation




somatic mutation(체세포 돌연변이)과 germline mutation(생식세포 돌연변이)의 개념이 가장 많이 등장하는 곳은 암 유전체일 것이다. 


두 돌연변이 모두 DNA 서열상에서의 돌연변이를 가리키며 각각의 개념의 정의는 아래와 같다.


체세포 돌연변이 - 체세포에서 돌연변이가 발생. 몸 전체에서 일부 영역의 세포만이 돌연변이를 갖는다. 


생식세포 돌연변이 - 생식세포 돌연변이는 부모 세대로부터 물려받은, 배아가 형성될 때부터 이미 가지고 있는 돌연변이로서 몸 전체 어느 세포든지 같은 돌연변이를 갖는다.


somatic vs germline


두 돌연변이가 암 유전체에서 많이 등장하는 이유와 구분하는 방법은 무엇일까


대부분 암은 체세포 돌연변이로 발생한다. 사람이 살아가는 동안 ROS, UV 등으로 DNA가 계속 변이의 위험에 노출되는데 이때 세포 성장이나 세포 주기에 관여하는 유전자에 돌연변이가 생기면 암세포로 변이되는 것이 가장 일반적인 암 발생 패턴이다. 그런데 이러한 유전자에 생식세포 때부터 돌연변이가 있다면 애초에 사산될 확률이 높기 때문이다.


따라서 암 치료 시 환자 개개인의 암세포를 채취해서 생식세포 돌연변이보다는 체새포 돌연변이를 찾아내고 해당 변이에 맞는 약물을 투여하는 것이 개인 맞춤형 치료이다.


물론 BRCA 돌연변이같이 유전되는 생식세포 돌연변이도 존재한다. 이러한 암을 대략 5~20% 정도로 예상하고 있다.



두 돌연변이를 구분할 수 있는 가장 확실한 방법은 N-T pair 비교이다.


환자의 정상 세포와 암세포를 각각 채취하여 GATK에서 제공하는 Mutact2 또는 이 같은 목적의 프로그램을 돌리는 것이다.


이론적으로 염색체의 염기 서열은 Homozygous인지 Heterozygous인지에 따라 0%, 50%, 100%를 가지게 된다. 

ex) G/G or G/T or T/T 이런식으로 maternal, paternal을 가진다. 


하지만 체세포 변이가 일어나면 그 비율이 달라질 수 있다. 특정 염색체에서만 변이가 일어나거나 CNV 등이 일어나서 염기 비율이 달라진 세포와 일반적인 세포가 섞여있기 때문이다. 10개의 세포중에 7개의 정상세포가 T/T를 가지고 있었고 3개가 암세포이고 G/T로 변이되었다고 하자. G/T의 비율은 3/17가 된다. 


프로그램은 정상 세포에서 발견한 돌연변이와 암세포에서 발견한 돌연변이를 고려하여 체세포 돌연변이로 구분하게 된다.


Whole genome sequencing을 사용하여 염색체 전체에서 수행하는 것이 가장 확실하지만, 비용과 시간의 문제로 인해 Whole exome sequencing으로도 많이 진행하고 있으며 RNA-seq으로도 진행할 수 있지만 신뢰도가 그리 높지는 않다. 신뢰도가 높지 않은 이유는 RNA는 기본적으로 불안전 할 뿐만 아니라 RNA editing등으로 서열이 쉽게 변하고 이것이 변이라고 분석되어 질 수 있기 때문이다.



Reference -

http://ib.bioninja.com.au/standard-level/topic-3-genetics/33-meiosis/somatic-vs-germline-mutatio.html


반응형

'bioinformatics > cancer genomics' 카테고리의 다른 글

Cancer cell line 정보 받기  (0) 2018.08.28
Clinical Cancer 데이터베이스  (0) 2018.07.09
Molecular disease  (0) 2018.07.05
암 분류법  (0) 2018.07.05
CancerSCAN  (0) 2018.07.04
반응형

oncotator 설치 및 실행하기




oncotator는 암 연구에서 point mutations이나 indels이 기능적으로 연관성이 있는지를 annotation 해주는 프로그램이다. COSMIC, Tumorscape, MutSig 결과를 조합하여 암 특이적 annotation을 해준다.


설치에 앞서 oncotator는 python 모듈인데 아래처럼 특정 버전의 모듈이 필요다. 


bx-python 0.8.2 requires six, which is not installed.

oncotator 1.9.9.0 requires biopython==1.66, which is not installed.

oncotator 1.9.9.0 requires pandas==0.18.0, which is not installed.

oncotator 1.9.9.0 requires pyvcf==0.6.8, which is not installed.

oncotator 1.9.9.0 has requirement bcbio-gff==0.6.2, but you'll have bcbio-gff 0.6.4 which is incompatible.

oncotator 1.9.9.0 has requirement numpy==1.11.0, but you'll have numpy 1.15.2 which is incompatible.

oncotator 1.9.9.0 has requirement pysam==0.9.0, but you'll have pysam 0.15.1 which is incompatible.


oncotator용 python-2.7.15를 새로 설치하였다. 


2017/08/16 - [programming language/python] - Python 설치 및 실행하기



oncotator 다운로드 페이지는 gatk에서 확인할 수 있다.

https://gatkforums.broadinstitute.org/gatk/discussion/4154/howto-install-and-run-oncotator-for-the-first-time#latest


oncotator와 data source를 모두 받는 것을 권장한다.


python은 pip까지 설치. oncotator는 압축만 풀고 난 뒤 설치를 진행하였다.


/data/Tools/system/Python-2.7.15-oncotator/bin/python setup.py build


아래와 같은 메시지가 떴다. mac이 아닌 환경에서는 직접 설치를 해줘야 한단다.


ngslib must be installed manually on non-mac: pip install --no-binary :all: ngslib==1.1.18


위의 메시지와 똑같이 입력하였다.


/data/Tools/system/Python-2.7.15-oncotator/bin/pip install --no-binary :all: ngslib==1.1.18


다시 빌드하였을 때 위와 같은 메시지가 없어진 것을 확인하였고 그대로 설치하였다.


/data/Tools/system/Python-2.7.15-oncotator/bin/python setup.py build

/data/Tools/system/Python-2.7.15-oncotator/bin/python setup.py install



install 과정에서 아래와 같은 에러 발생.


ImportError: No module named _build_utils.apple_accelerate


검색해보니 Numpy install 오류라고 한다. (https://github.com/andersbll/cudarray/issues/34)


oncotator를 install할 때 모듈을 설치하기는 하는데 미리 메뉴얼로 설치하는게 혹시 모를 오류가 안생기는듯 하다.


pip install bx-python==0.8.2

pip install pandas==0.18.0

pip install biopython==1.66 

pip install pyvcf==0.6.8

pip install bcbio-gff==0.6.2

pip install numpy==1.11.0

pip install pysam==0.9.0


근데 pysam 설치하다가 또 오류남.


    htslib/hfile_libcurl.c: In function ‘easy_errno’:

    htslib/hfile_libcurl.c:93:10: error: ‘CURLE_NOT_BUILT_IN’ undeclared (first use in this function)

    htslib/hfile_libcurl.c:93:10: note: each undeclared identifier is reported only once for each function it appears in

    error: command 'gcc' failed with exit status 1


아래처럼 해결함.

installed : /path-to/curl-7.50.3

export CFLAGS=-I/path-to/curl-7.50.3/include



Reference -

https://github.com/abishara/athena_meta/issues/1


반응형

'bioinformatics' 카테고리의 다른 글

Gene ID conversion  (0) 2018.11.15
SRA data 다운로드받기  (1) 2018.10.17
liftover하기  (0) 2018.09.28
DESeq2에서 heatmap, PCA, MA, volcano plot 그리기  (0) 2018.08.31
Optical duplicate와 Library duplicates  (0) 2018.08.27
반응형

tar 디렉토리 지정해서 압축 풀기




원하는 경로에 압축을 풀고싶다면 아래처럼 입력하면 된다.


tar zxvf file.tar.gz -C path


해당 폴더에 파일을 바로 압축을 풀어주니 미리 빈 폴더를 생성하고 그 폴더 안에 푸는것이 좋을 것 같다.



반응형
반응형

liftover하기




liftover란?

- 다른 genome에 맞게 결과 파일의 버전을 바꾸는 것을 말한다. 

- 사람의 genome은 hg19, GRCh37, GRCh38 등 여러 개가 존재하며 이에 따라 각 유전자의 위치도 조금씩 차이가 난다. 새롭게 genome을 만들 때마다 모든 정보를 새로 작성하는 것 보다 기존의 정보에서 달라진 위치만 수정하는 것이 비용이나 시간상으로 효율적일 것이다.

- 권장하지는 않지만 다른 종의 genome 간의 비교도 가능하다. 단 여기서는 서열 간의 차이가 크게 나기 때문에 정확도가 낮아 손실되는 정보가 있을 수 있음에 유의해야 한다.


CrossMap

liftover를 지원하는 프로그램은 여러 개 있지만, 여기에선 CrossMap을 소개하고자 한다.


CrossMap은 SAM/BAM, Wiggle/BigWig, BED, GFF/GTF, VCF 등 다양한 포맷의 파일을 지원하며 특히나 python module이기 때문에 설치가 매우 간단하다.


아래와 같이 입력하면 설치가 완료된다.


pip install CrossMap


Python 2.7 이하에서만 작동하는 모듈이다.


dependency가 있지만, 특별히 어려운 모듈은 없어서 pip에서 알아서 설치해주니 크게 신경 쓸 필요는 없다.



설치가 제대로 되었으면 chain 파일이 필요하다.

chain 파일이란 두 genome 간의 변화된 부분이 작성된 파일이다. CrossMap 홈페이지에서 사람과 쥐의 chain 파일을 제공하고 있으며 USCS genome browser에 가면 종간의 chain 파일도 내려받을 수 있다.


CrossMap 홈페이지 : http://crossmap.sourceforge.net/


프로그램 사용법은 홈페이지에 자세하게 나와 있으니 요약하기만 하겠다.


CrossMap.py <command> <chain file> <input file> <output file> 


input file이 hg18이고 output file이 hg19라면 chain file은 hg18Tohg19를 넣으면 된다.



Reference -

http://crossmap.sourceforge.net/



반응형

+ Recent posts