반응형

single cell sequencing



individual cell을 따로 분리하여 sequencing 하는 NGS 기술이다.

기존의 sequencing은 각각의 cell을 따로 분리할 기술이 없었기 때문에 bulk sequencing이었고 여러 종류의 세포가 섞여있었기 때문에 각각의 세포의 transcriptome을 분리하여 계산할 수 없었다.

이러한 single cell sequencing이 필요한 분야는 microbial meatagenomics, cancer genomics 등이 있다.


NGS의 장점 중에 하나는 배양할 수 없는 균을 sequencing 할 수 있다는 것인데 (일반적으로 균에 특성을 파악하려면 실험실에서 키워야 한다.) 여기에 각각의 균을 single cell 수준으로 분리할 수 있다면 각각의 균의 genome까지 profiling까지 할 수 있게 되는 것이다.

cancer genomics에서는 tumor heterogenity를 고려한 genomic profiling이 가능해진다는 장점이 있다.


하지만 아직까지는 single cell sequencing에서 해결해야 할 단점이 존재한다.

1. cost가 비싸다. single cell isolation이라는 추가 스텝이 필요하고 여기에서 나오는 데이터는 depth가 적기 때문에 실험을 여러 번 반복해서 데이터를 뽑아야 한다.

2. single cell에서 나오는 DNA는 pico gram 수준인데 sequencing하기위해서는 증폭이 더 많이 필요하다. 여기에 따른 uneven한 bias가 생길 수 있다.



Reference - 

https://en.wikipedia.org/wiki/Single_cell_sequencing


반응형

'bioinformatics' 카테고리의 다른 글

CRISPR editing  (0) 2018.04.05
Stem cell  (0) 2018.04.05
MARS 설치 및 실행하기  (0) 2017.09.27
BEAGLE-LIB 설치하기  (0) 2017.09.27
BEAST 설치 및 실행하기  (0) 2017.09.27
반응형

samba 설정하기



samba를 설치하는 방법은 다른 홈페이지를 참고. centos에서는 아래 명령어로 설치 가능하다

yum install samba

samba에 접속할 디렉토리를 설정하기 위해서 /etc/samba/smb.conf 파일을 수정해야 한다.


global 설정을 아래처럼 하고 특정 IP만 허용하고 싶으면 hosts allow 부분에 아이피를 넣어주면 된다.


[global]

        workgroup = WORKGROUP

        security = user

        passdb backend = tdbsam

        hosts allow = *.*.*.*

        unix charset = UTF-8

        dos charset = CP932

        printing = cups

        printcap name = cups

        load printers = yes

        cups options = raw


user의 Home을 공유하고 싶으면 아래처럼 넣어준다.

[homes]
        comment =   User  Home  Directories
        writable = yes
        browseable = no

특정 유저에게 특정 path을 연결하고 싶으면 아래처럼 추가하면 된다.

[test]
        comment = test directory
        path = /DIR/TO/TEST
        writable = yes
        valid users = testuser
        browseable = yes


모든 설정이 끝나고 나면 samba를 재시작 해야한다.

systemctl restart samba

user가 samba를 쓰고 싶다면 password를 부여해야 한다.

smbpasswd -a username

윈도우에서 samba를 네트워크 드라이브로 연결하기 위해서는 내 PC에 들어가서 아래처럼 네트워크 드라이브 연결을 해주면 된다.



home에 연결하기 위해서는 \\server\[username] 을 입력해주면 되고 특정 폴더에 연결하고 싶다면 \\server\TEST로 연결해 주면 된다.


반응형

'Computer Science > linux' 카테고리의 다른 글

리눅스에서 프록시 설정하기  (0) 2018.07.26
neocomplcache vim plugin 설치하기  (0) 2018.07.12
awk 응용하기!  (0) 2017.10.18
MPC 설치하기  (0) 2017.09.19
MPFR 설치하기  (0) 2017.09.19
반응형

Genome-wide characterization of centromeric satellites from multiple mammalian genomes



Centromere 영역은 complex repeat 구조 때문에 해결하기 힘든 과제로 남아있음. RepeatNet이라는 computational method 개발하여 WGS sequence data 상에서 higher-order repeat structure 밝히고 기능을 밝히고자 . 6종의 포유동물 (, , 코끼리, 아르마딜로, 주머니쥐, 오리너구리) genome 사용하여 테스트 해봄. Centromere 존재하는 sequence 진화 하는 동안 매우 빠르게 변하기 때문에 특이적 sequence 가지고 있음. 따라서 이미 정해진 서열을 찾는게 아니라 higher-order repeating 구조에 기반하여 서열을 찾아야 .


Method

- Read insert size centromere 영역보다 작을 left read right read 모두 repeat 되는 경향을 보일 것임. 이러한 read k-mer 쪼개서 그래프로 만들면 특정 패턴이 반복되는 경향을 보일 것임. 이러한 read 중에 satellite 영역에 걸치는 영역들까지 계산하면 satellite sequence 길이를 예측 가능함. 길이 분포는 대략 140-930nt까지 종에 따라서 다양하게 나타나는 것을 확인함. (figure 1., table1.)


Result

- 실제 관측 결과 별로 서열이 조금씩 달라지는 것을 확인할 있었고 MSA 했을 거리에 따라 variation 늘어나는 것을 확인할 있었음. (figure 3.) 또한 특이적이게도 오리너구리에서는 centromere에서 satellite DNA 찾을 없었는데 enrich 되어 있지 않는 것으로 보임.



resource -

Can Alkan et al., Genome-wide characterization of centromeric satellites from multiple mammalian genomes, Genome research, 2010


반응형
반응형

awk 응용하기!



awk '{if ($1 ~ ">gga" || $1 ~ ">tgu") {print $1 ; getline ; print}}' mature.fa > mature.others.fa


줄의 시작이 ">gga" 또는 ">tgu"로 시작하는 줄에서 $1를 프린트 하고 라인을 읽고 전체 줄을 프린트한다.


mature.fa 파일은 mirbase에서 다운로드 받은 것으로 전체 종의 대한 mature miRNA sequence가 전부 포함되어 있다.


mirdeep2에서 유사종의 mature miRNA sequence만 가져오고 싶으며 또한 sequence id에 추가 설명 없이 1번 column만 포함되어야 하므로 위와 같은 코드를 구성하였다.







fasta 파일에서 contig 별로 sequence 가져오기.


contig의 형식은 아래와 같았다.


>Contig1

sequence


>로 시작하는 id는 substr를 사용해 숫자 부분만 가져오고 >로 시작하지 않으면 이전에 정한 id 변수 이름에 write.


awk '{if ($1 ~ ">") id = substr($1,8)} {print >> "jelly.out.break.fasta."id".txt"}' ../break/jelly.out.break.fasta


필요에따라 id를 변수로 지정하는 부분만 바꿔주면 될듯 하다.




fasta 파일에서 "|" 와 "_"로 이어져있는 id를 쪼개기.


awk '{if ($1 ~ ">") {split($1,tmpid,"|");split(tmpid[1],id,"_");print ">"id[2] >> "knd1.fa"} else {print >> "knd1.fa"}}' consensus_ngmlr.fasta


반응형

'Computer Science > linux' 카테고리의 다른 글

neocomplcache vim plugin 설치하기  (0) 2018.07.12
samba 설정하기  (0) 2018.02.02
MPC 설치하기  (0) 2017.09.19
MPFR 설치하기  (0) 2017.09.19
GMP 설치하기  (1) 2017.09.19
반응형

NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing


Long-read sequencing을 기반으로 한 Structural variants를 찾아내는 프로그램으로 직접 알고리즘을 개발한 것은 아니고 이 전에 개발된 프로그램들의 조합(alignerSV caller)을 고려하고 parameter를 최적화 하는 작업을 진행한 meta SV caller이다. 비교 대상은 가장 많이 쓰이고 있는 PBHoney Sniffles이며 두 프로그램의 featurePBHoneylong-read discordanceinterrupted mapping이고 Snifflessplit-read, high-mismatch, coverage 등을 사용하고 있다. 두 프로그램은 aligner를 특정하여 진행하고 있는데 NextSV는 모든 조합(Figure 1)을 고려하여 sensitive/stringent set의 결과를 도출한다.(이후 분석 목적에 따라 어떤 set로 진행할 지 정하면 된다.) 또한 이 과정에서 long-read는 아직까지 sequencing 비용이 비싸 depth가 깊지 않은 경우가 많은데 이러한 depth에 따른 parameter까지 고려하여 parameter를 최적화 하고 있다. 이후에는 (Figure 2-4) 검증된 두 데이터 (NA12878Ashkenazi Jewish family trio)를 가지고 performance를 비교하였다. 대부분의 결과에서 NextSV caller를 사용한 결과가 좋았으나 PBHoneySniffles에서는 default옵션으로만 진행하였다는 것을 고려해야 하며 논문에서는 시간이나 사용하는 메모리 등에 대한 비교는 Table 5 이외에는 없고 Table 5NextSV에서 각 step별 소요 시간만을 보여주고 있다. NextSVmeta SV caller인만큼 performance는 좋을 지라도 computational resource 사용면에서는 다른 프로그램에 비해 안좋을 것이라고 예상된다


resource -

Li Fang et al., NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing, BioRxiv, 2017


반응형

+ Recent posts