반응형

Kaggle이란 데이터 과학자와 머신 러닝 사용자의 스킬과 정보 공유를 위해 만들어진 커뮤니티이다.

 

 

주기적으로 열리는 Competetion을 통해 상금과 명성을 얻을 수도 있고 

Courses 에서 학습을 할 수도 있다.

상당히 공신력 있는 커뮤니티라서 입상 실적은 ML/AL 경력으로 인정해주는 회사도 있다.

Kaggle korea 페이스북 커뮤니티도 있으니 참고하면 좋을 듯 하다.

https://www.facebook.com/groups/KaggleKoreaOpenGroup/

반응형

'Data Science > machine learning' 카테고리의 다른 글

추론 시스템 만들기  (0) 2024.09.09
반응형

임산부의 플라즈마에서 태아의 cell-free DNA의 존재가 밝혀지면서 NIPT (Noninvasive prenatal test)가 만들어졌고 태아의 비이상성을 검출하기 위한 방법으로 널리 사용되고 있다.

 

하지만 임산부의 플라즈마에서 태아의 DNA 비율이 어느정도인지에 따라 검사의 정확도가 좌우되기때문에 정확한 비율을 알아내는 것이 필요해졌고 여러 종류의 생물정보학 분석 방법이 사용되었다.

 

1. Y 염색체 기반

예전에는 SRY, DYS14, ZFY 같은 유전자에 마커를 사용하여 측정하였으나 최근에는 Y 염색체 전체의 비율을 계산한 것으로 FF로 계산한다. 간단하고 정확한 편이나 남아에게만 적용할 수 있는 한계가 있다.

 

2. 부계 Genotype 정보를 이용

SNP 중에 부계에서 A/A, 모계에 C/C 처럼 homo로 가지고 있는 경우 태아는 A/C hetero를 가질 수 밖에 없다. 전체 서열 중에 A가 가지는 비율을 계산하면 FF를 추정 할 수 있다. 이 방법도 정확도가 높은 편이지만 부계의 SNP정보를 필요로 하다는 점에서 추가 비용이 필요하다.

 

3. high-depth 시퀀싱 데이터

부계 genotype 정보가 없어도 충분한 depth가 확보된다면 나오는 결과를 기반으로 모계 genotype과 태아의 genotype을 추정 할 수 있다. 대략 ~120x 정도의 depth일 때 신뢰할 만하다는 연구 결과가 있다.

 

4. 모계 genotype 정보를 이용한 shallow-depth 시퀀싱

모계 SNP 정보를 정확히 알고 있다면 depth가 많지 않아도 FF 예측이 가능하다. 모계에서 homozygous site를 추려낸 후 이 중에 hetero 서열을 가지는 곳의 비율을 계산하면 된다. 2번과 비슷하게 SNP 정보를 microarray 등을 통해 미리 확보해야 하는 단점이 있다.

 

5. 시퀀싱 데이터를 기반으로한 shallow-depth 시퀀싱

50KB 단위로 염색체의 영역을 나눈 뒤 read count를 계산하여 FF값을 추정하는 SeqFF 라고 불리우는 방법이 있다. Enet과 reduced-rank regression 모델과 coefficient를 계산했을 때 각각 0.932와 0.938의 r값을 가진다. 이 방법은 실제 FF가 5% 미만일 때는 정확도를 보장할 수 없으며 대용량 데이터로 예측 모델을 만들어야하는 단점이 있다.

 

6. 메틸화 마커

포유류는 CpG 염기에서 C가 ~70% 정도 메틸화 되어 있다. 메틸화가 되는 위치에 따라 세포의 역할이 바뀌는데 태반 특이적 메틸화 마커인 RASSF1A 프로모터 서열 등에서 태아에서만 메틸화 되는 영역을 찾아, 모계 DNA 서열에서의 메틸화 되지 않는 영역과 비교하여 FF를 계산한다. Y 염색체 기반 FF 예측과 0.85의 correlation을 가지는 것을 확인하였으며 대규모 데이터셋에서 깊이있는 연구가 필요하다.

 

7. Cell-free DNA 사이즈 기반

태아의 DNA는 엄마의 DNA보다 짧은 편이다. 따라서 FF 값이 높다면 짧은 DNA의 비율이 늘어날 것이다. paired-end 데이터에서 100-150bp와 163-169bp의 DNA 사이즈 구분을 통해 Y염색체 기반과 0.827의 r값을 가지는 결과를 만들었다.

 

8. Cell-free DNA 뉴클레오좀 기반 

 

 

Reference - 

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5343987/

반응형
반응형

Noninvasive prenatal testing (NIPT)는 태아의 유전적 이상을 찾아내는 방법 중 하나로 임부의 피에 떠다니는 cell free DNA(cfDNA)를 검사한다. 침습적 방법의 경우 주사를 직접 태반에 찔러 넣는 방식으로 낮은 확률의 사산이 생길 수 있는것에 비해 안정적이지만 검사의 정확도가 상대적으로 낮은 단점이 있다.

 

cfDNA는 약 200bp의 길이로 일반적으로는 세포가 죽을 때 생기는 부산물이며 혈류를 따라 이동한다. 임신 중에는 태반 세포의 일부도 cfDNA가 되는데 태반의 DNA는 태아의 DNA와 일치하기 때문에 이 DNA를 NGS 방식으로 시퀀싱 하여 태아의 DNA를 분석할 수 있다. 

 

NIPT는 주로 aneuploidy 같은 염색체 이상 질환에 대해 검사한다. 특히나 주로 보는 것은 trisomy 21(다운 증후군), trisomy 18, trisomy 13 그리고 X, Y 염색체의 수 이상 등이 있다.

염색체 특정 영역의 deletion 또는 duplication도 확인 하기도 한다.

 

엄마의 피에서 태아의 DNA가 차지하는 비율을 "fetal fraction" 이라고 부른다. 10주 이상일 때 보통 4퍼센트 이상이며 만약 이보다 낮다면 검사의 정확도가 낮아져 위양성 결과가 나올 수 있다. 샘플링 에러, 엄마의 비만 또는 태아의 비정상적인 부분이 있다면 fetal fraction이 낮게 나올 수 있다.

 

염색체 이상을 찾아내는 방법은 태아와 엄마의 모든 cfDNA 조각의 개수를 세고 모든 염색체의 비율이 비슷하다면 염색체 이상이 있을 확률은 낮은 것으로 본다. 만약 특정 염색체의 조각이 많다면 trisomy를 의심해 볼 수 있다. NIPT는 정확도가 높지 않기 때문에 추가적인 검사로 양성 판단이 필요하다.

 

Reference -

https://medlineplus.gov/genetics/understanding/testing/nipt/

 

반응형

'bioinformatics' 카테고리의 다른 글

Argo workflow를 사용한 파이프라인 관리  (0) 2024.09.22
gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
Sequencing QC  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
반응형

$jupyter notebook --no-browser --port=8888

명령어로 jupyter notebook 실행. 아래 화면으로 정상 실행됨과 포트를 확인.

 

$ jupyter notebook --no-browser --port=8888
[I 16:25:24.807 NotebookApp] Serving notebooks from local directory: 
[I 16:25:24.807 NotebookApp] Jupyter Notebook 6.1.4 is running at:
[I 16:25:24.807 NotebookApp] http://localhost:8888/
[I 16:25:24.807 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

 

1. PuTTY

 

2. XShell

 

수신대상서버의 port = jyupter 실행 port

remote 서버의 port = 사용자 pc에서의 port

 

위와 같은 설정이라면 브라우져에서 http://localhost:8889 일때 실행 가능함.

 

jupyter notebook 실행시 나오는 링크는 8888로 설정되어있기 때문에 두 포트 넘버를 같게 하는게 편함.

 

 

반응형

'Computer Science > linux' 카테고리의 다른 글

conda 채널 추가  (0) 2022.02.22
conda proxy 에러 해결방법  (0) 2022.02.07
Centos yum repo 변경  (0) 2020.08.03
github로 스크립트 관리하기 AtoZ  (0) 2020.07.29
Linux hosts 파일 변경  (0) 2020.07.14
반응형

local 설치를 위해서 또는 공유되는 폴더에 설치하기 위해서 perl module 다운로드시 CPAN의 install dir 설정을 변경하고 PERL5LIB이 이 폴더를 잡도록 설정한다.

 

$ cpan
cpan[3]> o conf init
cpan[4]> o conf makepl_arg INSTALL_BASE=/DIR/To/INSTALL/PERL
cpan[5]> exit

 

export PERL5LIB=/DIR/To/INSTALL/PERL/lib/perl5:$PERL5LIB

 

CPAN으로 모듈을 install 하면 자동으로 인식함.

반응형

+ Recent posts