반응형

awk 응용하기!



awk '{if ($1 ~ ">gga" || $1 ~ ">tgu") {print $1 ; getline ; print}}' mature.fa > mature.others.fa


줄의 시작이 ">gga" 또는 ">tgu"로 시작하는 줄에서 $1를 프린트 하고 라인을 읽고 전체 줄을 프린트한다.


mature.fa 파일은 mirbase에서 다운로드 받은 것으로 전체 종의 대한 mature miRNA sequence가 전부 포함되어 있다.


mirdeep2에서 유사종의 mature miRNA sequence만 가져오고 싶으며 또한 sequence id에 추가 설명 없이 1번 column만 포함되어야 하므로 위와 같은 코드를 구성하였다.







fasta 파일에서 contig 별로 sequence 가져오기.


contig의 형식은 아래와 같았다.


>Contig1

sequence


>로 시작하는 id는 substr를 사용해 숫자 부분만 가져오고 >로 시작하지 않으면 이전에 정한 id 변수 이름에 write.


awk '{if ($1 ~ ">") id = substr($1,8)} {print >> "jelly.out.break.fasta."id".txt"}' ../break/jelly.out.break.fasta


필요에따라 id를 변수로 지정하는 부분만 바꿔주면 될듯 하다.




fasta 파일에서 "|" 와 "_"로 이어져있는 id를 쪼개기.


awk '{if ($1 ~ ">") {split($1,tmpid,"|");split(tmpid[1],id,"_");print ">"id[2] >> "knd1.fa"} else {print >> "knd1.fa"}}' consensus_ngmlr.fasta


반응형

'Computer Science > linux' 카테고리의 다른 글

neocomplcache vim plugin 설치하기  (0) 2018.07.12
samba 설정하기  (0) 2018.02.02
MPC 설치하기  (0) 2017.09.19
MPFR 설치하기  (0) 2017.09.19
GMP 설치하기  (1) 2017.09.19
반응형



miRNA의 명명법은 규칙이 있다.


이 내용을 mirbase에서 소개하고 있으며 요약하고자 한다.


원문은 http://www.mirbase.org/help/nomenclature.shtml 참조 하면 된다.




요약하자면


1. hsa-mir-121이라는 miRNA가 있을 때 학명-mir-숫자 의 형식을 따른다.


2. 숫자는 발견된 순서로서 마지막으로 121이라는 miRNA가 있었다면 이후에 발견되는 miRNA는 122부터 시작한다.


3. genome 상의 다른 영역에서 같은 mature miRNA를 가지는 precursor miRNA가 있다면 이름은 hsa-mir-121-1, hsa-mir-121-2를 가진다.


4. genome 상의 다른 영역에서 유사한 mature miRNA를 가지고 있다면 hsa-mir-121a, hsa-mir-121b를 가진다.


5. mature miRNA는 위치에 따라 precursor miRNA 이름 뒤에 -5p , -3p를 가진다. ex) hsa-mir-121-5p, hsa-mir-121-3p


6. 이 규칙은 항상 적용되는 것은 아니며 예외가 있을 수 있다.




마지막으로 이름은 아주 일부의 정보만 가지고 있기 때문에 miRNA의 정확한 정보를 알기 위해서는 database를 검색해야지 이름에 의존하면 안된다고 하며 설명을 마무리 하고 있다.



반응형

'bioinformatics' 카테고리의 다른 글

NCBI BLAST+ 설치 및 실행하기  (0) 2017.08.16
Busco 설치 및 실행하기  (0) 2017.08.16
Circos plot 그리기.  (0) 2017.08.15
GLOOME 설치 및 실행하기  (0) 2016.12.19
bowtie2에서 mismatch 허용하기  (0) 2016.09.13

+ Recent posts