분류 전체보기

Stem cell 2018.04.05
Single cell sequencing 2018.04.05
samba 설정하기 2018.02.02
Genome-wide characterization of centromeric satellites from multiple mammalian genomes 2017.12.07
awk 응용하기! 2017.10.18
NextSV 2017.10.11
MARS 설치 및 실행하기 2017.09.27
BEAGLE-LIB 설치하기 2017.09.27
BEAST 설치 및 실행하기 2017.09.27
Fast and accurate de novo genome assembly from long uncorrected reads 2017.09.20

Stem cell

바닐라스카이 2018. 4. 5. 11:32

2018. 4. 5. 11:32

Stem cell

stem cell의 정의는 self-renewal, a capacity to differencitate가 가능한 세포를 말하며 배아줄기세포, 성체줄기세포, iPSCs 세 종류로 구분할 수 있다.

배아 줄기 세포

- 수정 4-5일 후의 초기 배아 상태 세포를 말하며 사람을 기준으로 200종류가 넘는 cell type으로 분화할 수 있는 pluripotent를 가진 세포를 말한다. 면역 거부반응이 없어 타인과 타종에게 이식이 가능하나 윤리적인 문제가 존재한다.

성체 줄기 세포

- pluripotent adult stem cell은 신체 내에 소량만 존재하는데 특정 세포로만 분화가 가능하며 면역 거부반응이 있어서 타인 타종에게 이식이 불가능하다.

유도 만능 줄기 세포

- 성체 세포를 야마나카 factor라고 불리는 Oct4, Sox2, cMyc and Klf4을 넣어주면 역분화하여 pluripotent 세포가 된다는 것을 교토대의 야마나카 신야가 2006년 쥐에서 최초로 발견하였으며 후에 사람에게서도 가능하다는 것을 2007년에 밝혔는데 동일한 시기에 winsconsin-madison 대학에서도 Oct4, Sox2, Nanog, Lin28으로 사람의 세포에서 동일하게 적용할 수 있다는 것을 발견하였다.

iPSCs와 ESC는 비슷하지만 엄연히 다른 세포이다. 유전자, epigenetic 패턴, teratoma formation 등이 비슷하지만 methlated에 대해 iPSCs가 더 닫혀 있는 것으로 보이는 연구가 있으며 유전자 발현 패턴에 대해서 ESCs와 iPSCs끼리, 또는 같은 iPSCs라고 하더라도 원래 세포 종류가 달라도 같은지에 대한 정보가 부족한 상황이다.

그럼에도 불구하고 iPSCs는 윤리적인 문제나 이식등에 있어서 자유롭기 때문에 활용 가능성이 매우 높으며 이러한 점 때문에 2012년 존 거든과 함께 노벨 생리학 의학상을 수상했다.

배아 줄기 세포의 분화능은 다섯 가지로 분류할 수 있다.

전능성

- 개체를 형성할 수 있는 분화능이며 세포 하나하나가 한 개체로 분화가 가능하다. 수정란이 이에 해당된다.

만능성

- 태아나 성체의 모든 세포로 가는 분화능을 말한다. 초기 수정란 세포가 분열하면서 여러 장기로 분화되기 전 단계의 세포를 말한다.

다분화성

- 세포계에 속한 몇몇 세포종으로 분화가 가능하며 성체 줄기세포에서 추출한다.

이분화성

- 두 종류의 세포로 분화가 가능한 줄기세포를 말한다

단일 분화성

- 한 종류의 특정 세포로 분화 가능한 줄기세포를 말한다.

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

HLAtyping (0)	2018.07.06
CRISPR editing (0)	2018.04.05
Single cell sequencing (0)	2018.04.05
MARS 설치 및 실행하기 (0)	2017.09.27
BEAGLE-LIB 설치하기 (0)	2017.09.27

Single cell sequencing

바닐라스카이 2018. 4. 5. 10:25

2018. 4. 5. 10:25

single cell sequencing

individual cell을 따로 분리하여 sequencing 하는 NGS 기술이다.

기존의 sequencing은 각각의 cell을 따로 분리할 기술이 없었기 때문에 bulk sequencing이었고 여러 종류의 세포가 섞여있었기 때문에 각각의 세포의 transcriptome을 분리하여 계산할 수 없었다.

이러한 single cell sequencing이 필요한 분야는 microbial meatagenomics, cancer genomics 등이 있다.

NGS의 장점 중에 하나는 배양할 수 없는 균을 sequencing 할 수 있다는 것인데 (일반적으로 균에 특성을 파악하려면 실험실에서 키워야 한다.) 여기에 각각의 균을 single cell 수준으로 분리할 수 있다면 각각의 균의 genome까지 profiling까지 할 수 있게 되는 것이다.

cancer genomics에서는 tumor heterogenity를 고려한 genomic profiling이 가능해진다는 장점이 있다.

하지만 아직까지는 single cell sequencing에서 해결해야 할 단점이 존재한다.

1. cost가 비싸다. single cell isolation이라는 추가 스텝이 필요하고 여기에서 나오는 데이터는 depth가 적기 때문에 실험을 여러 번 반복해서 데이터를 뽑아야 한다.

2. single cell에서 나오는 DNA는 pico gram 수준인데 sequencing하기위해서는 증폭이 더 많이 필요하다. 여기에 따른 uneven한 bias가 생길 수 있다.

Reference -

https://en.wikipedia.org/wiki/Single_cell_sequencing

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

CRISPR editing (0)	2018.04.05
Stem cell (0)	2018.04.05
MARS 설치 및 실행하기 (0)	2017.09.27
BEAGLE-LIB 설치하기 (0)	2017.09.27
BEAST 설치 및 실행하기 (0)	2017.09.27

samba 설정하기

바닐라스카이 2018. 2. 2. 17:34

2018. 2. 2. 17:34

samba 설정하기

samba를 설치하는 방법은 다른 홈페이지를 참고. centos에서는 아래 명령어로 설치 가능하다

yum install samba

samba에 접속할 디렉토리를 설정하기 위해서 /etc/samba/smb.conf 파일을 수정해야 한다.

global 설정을 아래처럼 하고 특정 IP만 허용하고 싶으면 hosts allow 부분에 아이피를 넣어주면 된다.

[global]

workgroup = WORKGROUP

security = user

passdb backend = tdbsam

hosts allow = *.*.*.*

unix charset = UTF-8

dos charset = CP932

printing = cups

printcap name = cups

load printers = yes

cups options = raw

user의 Home을 공유하고 싶으면 아래처럼 넣어준다.

[homes]

comment = User Home Directories

writable = yes

browseable = no

특정 유저에게 특정 path을 연결하고 싶으면 아래처럼 추가하면 된다.

[test]

comment = test directory

path = /DIR/TO/TEST

writable = yes

valid users = testuser

browseable = yes

모든 설정이 끝나고 나면 samba를 재시작 해야한다.

systemctl restart samba

user가 samba를 쓰고 싶다면 password를 부여해야 한다.

smbpasswd -a username

윈도우에서 samba를 네트워크 드라이브로 연결하기 위해서는 내 PC에 들어가서 아래처럼 네트워크 드라이브 연결을 해주면 된다.

home에 연결하기 위해서는 \\server\[username] 을 입력해주면 되고 특정 폴더에 연결하고 싶다면 \\server\TEST로 연결해 주면 된다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

리눅스에서 프록시 설정하기 (0)	2018.07.26
neocomplcache vim plugin 설치하기 (0)	2018.07.12
awk 응용하기! (0)	2017.10.18
MPC 설치하기 (0)	2017.09.19
MPFR 설치하기 (0)	2017.09.19

Genome-wide characterization of centromeric satellites from multiple mammalian genomes

바닐라스카이 2017. 12. 7. 16:35

2017. 12. 7. 16:35

Genome-wide characterization of centromeric satellites from multiple mammalian genomes

Centromere 영역은 complex repeat 구조 때문에 해결하기 힘든 과제로 남아있음. RepeatNet이라는 computational method를 개발하여 WGS sequence data 상에서 higher-order repeat structure를 밝히고 그 기능을 밝히고자 함. 6종의 포유동물 (말, 개, 코끼리, 아르마딜로, 주머니쥐, 오리너구리) genome을 사용하여 테스트 해봄. Centromere에 존재하는 sequence는 진화 하는 동안 매우 빠르게 변하기 때문에 종 특이적 sequence를 가지고 있음. 따라서 이미 정해진 서열을 찾는게 아니라 higher-order repeating 구조에 기반하여 서열을 찾아야 함.

Method

- Read의 insert size가 centromere 영역보다 작을 때 left read와 right read 모두 repeat 되는 경향을 보일 것임. 이러한 read를 k-mer로 쪼개서 그래프로 만들면 특정 패턴이 반복되는 경향을 보일 것임. 이러한 read 중에 satellite 영역에 걸치는 영역들까지 계산하면 satellite sequence의 길이를 예측 가능함. 길이 분포는 대략 140-930nt까지 종에 따라서 다양하게 나타나는 것을 확인함. (figure 1., table1.)

Result

- 실제 관측 결과 종 별로 서열이 조금씩 달라지는 것을 확인할 수 있었고 MSA를 했을 때 종 간 거리에 따라 variation이 늘어나는 것을 확인할 수 있었음. (figure 3.) 또한 특이적이게도 오리너구리에서는 centromere에서 satellite DNA를 찾을 수 없었는데 enrich 되어 있지 않는 것으로 보임.

resource -

Can Alkan et al., Genome-wide characterization of centromeric satellites from multiple mammalian genomes, Genome research, 2010

저작자표시 비영리 변경금지 (새창열림)

'Research > paper review' 카테고리의 다른 글

LoFreq (0)	2018.07.04
NextSV (0)	2017.10.11
Fast and accurate de novo genome assembly from long uncorrected reads (0)	2017.09.20
De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds (0)	2017.09.06

awk 응용하기!

바닐라스카이 2017. 10. 18. 11:37

2017. 10. 18. 11:37

awk 응용하기!

awk '{if ($1 ~ ">gga" || $1 ~ ">tgu") {print $1 ; getline ; print}}' mature.fa > mature.others.fa

줄의 시작이 ">gga" 또는 ">tgu"로 시작하는 줄에서 $1를 프린트 하고 라인을 읽고 전체 줄을 프린트한다.

mature.fa 파일은 mirbase에서 다운로드 받은 것으로 전체 종의 대한 mature miRNA sequence가 전부 포함되어 있다.

mirdeep2에서 유사종의 mature miRNA sequence만 가져오고 싶으며 또한 sequence id에 추가 설명 없이 1번 column만 포함되어야 하므로 위와 같은 코드를 구성하였다.

fasta 파일에서 contig 별로 sequence 가져오기.

contig의 형식은 아래와 같았다.

>Contig1

sequence

>로 시작하는 id는 substr를 사용해 숫자 부분만 가져오고 >로 시작하지 않으면 이전에 정한 id 변수 이름에 write.

awk '{if ($1 ~ ">") id = substr($1,8)} {print >> "jelly.out.break.fasta."id".txt"}' ../break/jelly.out.break.fasta

필요에따라 id를 변수로 지정하는 부분만 바꿔주면 될듯 하다.

fasta 파일에서 "|" 와 "_"로 이어져있는 id를 쪼개기.

awk '{if ($1 ~ ">") {split($1,tmpid,"|");split(tmpid[1],id,"_");print ">"id[2] >> "knd1.fa"} else {print >> "knd1.fa"}}' consensus_ngmlr.fasta

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

neocomplcache vim plugin 설치하기 (0)	2018.07.12
samba 설정하기 (0)	2018.02.02
MPC 설치하기 (0)	2017.09.19
MPFR 설치하기 (0)	2017.09.19
GMP 설치하기 (1)	2017.09.19

NextSV

바닐라스카이 2017. 10. 11. 10:32

2017. 10. 11. 10:32

NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing

Long-read sequencing을 기반으로 한 Structural variants를 찾아내는 프로그램으로 직접 알고리즘을 개발한 것은 아니고 이 전에 개발된 프로그램들의 조합(aligner와 SV caller)을 고려하고 parameter를 최적화 하는 작업을 진행한 meta SV caller이다. 비교 대상은 가장 많이 쓰이고 있는 PBHoney와 Sniffles이며 두 프로그램의 feature는 PBHoney는 long-read discordance와 interrupted mapping이고 Sniffles는 split-read, high-mismatch, coverage 등을 사용하고 있다. 두 프로그램은 aligner를 특정하여 진행하고 있는데 NextSV는 모든 조합(Figure 1)을 고려하여 sensitive/stringent set의 결과를 도출한다.(이후 분석 목적에 따라 어떤 set로 진행할 지 정하면 된다.) 또한 이 과정에서 long-read는 아직까지 sequencing 비용이 비싸 depth가 깊지 않은 경우가 많은데 이러한 depth에 따른 parameter까지 고려하여 parameter를 최적화 하고 있다. 이후에는 (Figure 2-4) 검증된 두 데이터 (NA12878과 Ashkenazi Jewish family trio)를 가지고 performance를 비교하였다. 대부분의 결과에서 NextSV caller를 사용한 결과가 좋았으나 PBHoney와 Sniffles에서는 default옵션으로만 진행하였다는 것을 고려해야 하며 논문에서는 시간이나 사용하는 메모리 등에 대한 비교는 Table 5 이외에는 없고 Table 5도 NextSV에서 각 step별 소요 시간만을 보여주고 있다. NextSV가 meta SV caller인만큼 performance는 좋을 지라도 computational resource 사용면에서는 다른 프로그램에 비해 안좋을 것이라고 예상된다.

resource -

Li Fang et al., NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing, BioRxiv, 2017

저작자표시 비영리 변경금지 (새창열림)

'Research > paper review' 카테고리의 다른 글

LoFreq (0)	2018.07.04
Genome-wide characterization of centromeric satellites from multiple mammalian genomes (0)	2017.12.07
Fast and accurate de novo genome assembly from long uncorrected reads (0)	2017.09.20
De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds (0)	2017.09.06

MARS 설치 및 실행하기

바닐라스카이 2017. 9. 27. 17:35

2017. 9. 27. 17:35

MARS 설치 및 실행하기

Multiple sequence alignment를 할 때 Input은 항상 linear하게 줄 수 밖에 없는데 mitochondrial DNA, viroid, viral or other genome 같은 circular DNA의 경우 시작과 끝을 정의할 수 없기 때문에 기준 없이 넣었다가는 이상한 결과가 나온다.

MARS는 sequence shifting을 통해 이러한 문제를 해결하고자 만든 프로그램이다.

프로그램은 github에서 받을 수 있다.

git clone https://github.com/lorrainea/mars

cd mars

./pre-install.sh

make -f Makefile

순서대로 진행하면 mars 실행파일이 생성된다.

실행명령은 아래처럼 하면 된다.

mars -a DNA/PROT -i input.fasta -o output.fasta -m 1 -T threads

output.fasta파일은 start와 end가 맞추어 졌으니 다시 clustal omega와 같은 MSA 프로그램에 결과를 기다리면 된다.

밑에 예시에서는 5종의 mitochondria sequence를 넣고 바로 MSA를 했을 때 밑의 두 종의 sequence만 먼저 나오는 것을 확인할 수 있었지만 mars를 진행한 뒤 다시 MSA를 했을 땐 정상적으로 align되는 것을 확인할 수 있었다.

Reference -

https://github.com/lorrainea/mars

Lorraine A. K. Ayad and Solon P. Pissis, MARS: improving multiple circular sequence alignment using refined sequences, BMC Genomics, 2017 https://doi.org/10.1186/s12864-016-3477-5

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

Stem cell (0)	2018.04.05
Single cell sequencing (0)	2018.04.05
BEAGLE-LIB 설치하기 (0)	2017.09.27
BEAST 설치 및 실행하기 (0)	2017.09.27
MHAP 설치 및 실행하기 (0)	2017.09.19

BEAGLE-LIB 설치하기

바닐라스카이 2017. 9. 27. 12:36

2017. 9. 27. 12:36

BEAGLE-LIB 설치하기

BEAST를 실행하는데 beagle-lib가 필요하여 설치방법을 소개하고자 한다.

README 파일에서는 svn으로 받으라고 되어있지만 해당 PATH를 찾지 못하여 그냥 git 주소와 같이 공개한다.

svn checkout http://beagle-lib.googlecode.com/svn/trunk BEAGLE

cd BEAGLE

git clone https://github.com/beagle-dev/beagle-lib

cd beagle-lib

./autogen.sh

./configure --prefix=/PATH/TO/INSTALL/BEAGLE-LIB

make

make install

순서로 진행하면 된다.

autogen.sh 시에 OS의 버전이 낮을 시 autoconf 버전이 맞지않아 configure파일이 생기지 않을 수 있는데 autoconf를 새로 설치하면 된다.

configure시에 아래와 같은 경고가 있을 수 있는데 GPGPU 연산이 불가능한 서버에서 작업 중이라면 무시하고 진행한다.

configure: WARNING: OpenCL not found or disabled. OpenCL implementation will not be built. If OpenCL support is desired, check the path to OpenCL and specify --with-opencl=/path/to/opencl

configure: WARNING: NVIDIA CUDA nvcc compiler not found or CUDA support disabled. CUDA implementation will not be built. If CUDA support is desired, check the path to CUDA and specify --with-cuda=/path/to/cuda

make 와 make install까지 성공적으로 마쳤다면 PATH를 잡아주기만 하면 된다.

export LD_LIBRARY_PATH=/PATH/TO/INSTALL/BEAGLE-LIB/lib:$LD_LIBRARY_PATH

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

Single cell sequencing (0)	2018.04.05
MARS 설치 및 실행하기 (0)	2017.09.27
BEAST 설치 및 실행하기 (0)	2017.09.27
MHAP 설치 및 실행하기 (0)	2017.09.19
Racon 설치 및 실행하기 (0)	2017.09.19

BEAST 설치 및 실행하기

바닐라스카이 2017. 9. 27. 12:03

2017. 9. 27. 12:03

BEAST 설치 및 실행하기

BEAST는 서열을 MCMC를 사용한 Bayesian analysis를 통해 phylogenetic tree를 그려주는 프로그램이다.

홈페이지 - http://beast.community/

JAVA 1.6 이상 버전에서 작동한다.

다운로드는 github를 통해서 할 수 있다. (https://github.com/beast-dev/beast-mcmc/releases/latest)

1.8.4 버전 기준으로 설치는 아래와 같다.

https://github.com/beast-dev/beast-mcmc/releases/download/v1.8.4/BEASTv1.8.4.tgz

tar -zxf BEASTv1.8.4.tgz

특별히 install 할 필요는 없고 압축을 풀면 bin 폴더가 나온다.

GUI 기반으로 작동하니 Xming 등의 X server 프로그램과 동시에 실행해야 한다.

BEAGLE library plugin도 설치해야 한다.

2017/09/27 - [bioinformatics] - BEAGLE-LIB 설치하기

Beast 옵션 중에 beagle library가 불가능 할시 그냥 쓰지 않을 수도 있기는 하다. 정확히 무슨 차이가 있는지는 조사 필요함.

모두 설치하고나면 BEAUti, BEAST, TreeAnnotator, LogCombiner, TreeStat 다섯 개의 프로그램이 설치된다.

홈페이지에 있는 tutorial을 그대로 따라하면 tree를 그릴 수 있다.

간략하게 순서를 말하자면

먼저 NEXUS 포맷의 MSA (mulitiple seuquence alignment) 결과가 필요하다.

web program인 clustal omega (http://www.ebi.ac.uk/Tools/msa/clustalo/)에 sequence를 넣고 output format만 NEXUS로 바꾸고 돌리면 MSA 결과는 쉽게 얻을 수 있다.

BEAUti 프로그램으로 MSA 결과와 BEAST를 어떤 parameter로 돌릴 지를 결정하고 저장하면 xml파일이 생기는데

이후에 BEAST 프로그램에 xml파일을 넣고 실행하면 trees파일이 생성되고 이 파일을

figtree(http://tree.bio.ed.ac.uk/software/figtree/) 등의 프로그램으로 확인하는 것이다.

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

MARS 설치 및 실행하기 (0)	2017.09.27
BEAGLE-LIB 설치하기 (0)	2017.09.27
MHAP 설치 및 실행하기 (0)	2017.09.19
Racon 설치 및 실행하기 (0)	2017.09.19
Phylip 설치 및 실행하기 (0)	2017.09.18

Fast and accurate de novo genome assembly from long uncorrected reads

바닐라스카이 2017. 9. 20. 09:58

2017. 9. 20. 09:58

Fast and accurate de novo genome assembly from long uncorrected reads

제목과는 다르게 assembler가 아니라 consensus에 사용할 수 있는 RACON 프로그램을 소개하고 있다. Quiver나 Nanopolish와 비슷한 프로그램이나 두 프로그램은 sequencer-specific인데 반해 RACON은 상관없이 사용할 수 있다. Table 1. 에서 6개의 small genome (lambda 에서 c.elegans 까지)을 가지고 성능을 비교하였다. Racon 이전의 step들은 miniasm(assembler), minimap(mapper)를 사용했으며 다른 프로그램을 사용해도 된다. Canu, FALCON과 비교했을 때 assembly된 결과와 reference간의 Aln. bases ref 등을 고려할 때 성능은 크게 차이 나지 않아 보인다. Racon과 Quiver, Nanopolish등을 중복해서 사용해도 결과는 거의 달라지지 않는다고 한다. 그러나 Table 2. 를 참고하면 속도는 최소 2~3배에서 최대 200~300배 정도 빠르다고 나와있다. 또한 Table 6. 에서는 비슷한 consensus 프로그램 Sparc와 비교했을 때는 Identity와 CPU time 모두에서 확실히 좋은 결과를 보여주고 있다. Large genome에서도 사용할 수 있는지에 대해서는 assembler인 miniasm이 large genome에 최적화 되어 있지 않아 miniasm+Racon pipeline 에서는 사용하지 않았다고 되어있는데 Racon만 사용하는 것에는 문제가 없어 보인다.

resource -

Robert Vaser et al., Fast and accurate de novo genome assembly from long uncorrected reads, Genome research, 2017

저작자표시 비영리 변경금지 (새창열림)

'Research > paper review' 카테고리의 다른 글

LoFreq (0)	2018.07.04
Genome-wide characterization of centromeric satellites from multiple mammalian genomes (0)	2017.12.07
NextSV (0)	2017.10.11
De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds (0)	2017.09.06

PREV 이전 1 ···13 14 15 16 17 18 19 20 NEXT 다음

분류 전체보기

Stem cell

배아 줄기 세포

성체 줄기 세포

유도 만능 줄기 세포

전능성

만능성

다분화성

이분화성

단일 분화성

'bioinformatics' 카테고리의 다른 글

single cell sequencing

Reference -

'bioinformatics' 카테고리의 다른 글

samba 설정하기

'Computer Science > linux' 카테고리의 다른 글

Genome-wide characterization of centromeric satellites from multiple mammalian genomes

Method

Result

resource -

'Research > paper review' 카테고리의 다른 글

awk 응용하기!

'Computer Science > linux' 카테고리의 다른 글

NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing

resource -

'Research > paper review' 카테고리의 다른 글

MARS 설치 및 실행하기

Reference -

'bioinformatics' 카테고리의 다른 글

BEAGLE-LIB 설치하기

'bioinformatics' 카테고리의 다른 글

BEAST 설치 및 실행하기

'bioinformatics' 카테고리의 다른 글

Fast and accurate de novo genome assembly from long uncorrected reads

resource -

'Research > paper review' 카테고리의 다른 글

티스토리툴바