'분류 전체보기' 카테고리의 글 목록 (8 Page)

분류 전체보기

conda proxy 에러 해결방법 2022.02.07
Primer 서열 분석을 위한 python 코드 2021.08.17
Kaggle 이란 2021.08.05
NIPT fetal DNA fraction Estimation 2021.06.22
NIPT 분석 2021.06.01
Jupyter notebook 설정 2020.11.03
Perl. CPAN 과 PERL5LIB 설정. 2020.10.13
Centos yum repo 변경 2020.08.03
github로 스크립트 관리하기 AtoZ 2020.07.29
Linux hosts 파일 변경 2020.07.14

conda proxy 에러 해결방법

바닐라스카이 2022. 2. 7. 09:39

2022. 2. 7. 09:39

anaconda의 버전 업데이트 후 아래와 같은 에러 발생

Collecting package metadata (current_repodata.json): failed

ProxyError: Conda cannot proceed due to an error in your proxy configuration.
Check for typos and other configuration errors in any '.netrc' file in your home directory,
any environment variables ending in '_PROXY', and any other system-wide proxy
configuration settings.

https://github.com/conda/conda/issues/9497 페이지에서 확인해보니 urllib3 의 버전 변경으로 인한 문제로 보임.

conda config --set ssl_verify False

위 명령어를 작성하면 .condarc 파일이 home directory 밑에 생성되는데 파일을 아래와 같이 수정한다

ssl_verify: False
proxy_servers:
  https: http://[PROXY]:[PORT]/

https: https: 에서 https: http로의 변경.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

centos 8에 slurm 설치하기 (0)	2022.05.11
conda 채널 추가 (0)	2022.02.22
Jupyter notebook 설정 (0)	2020.11.03
Centos yum repo 변경 (0)	2020.08.03
github로 스크립트 관리하기 AtoZ (0)	2020.07.29

Primer 서열 분석을 위한 python 코드

바닐라스카이 2021. 8. 17. 09:33

2021. 8. 17. 09:33

NGS 데이터에서 adapter 서열과 primer 서열에 따른 read 분류.

아래는 pseudo code 이므로 적절한 변환이 필요하다.

import regex

#ambiguous base list
ambiguous_base_dic = {"N":"ATGC","R":"AG","Y":"TC","K":"GT","M":"AC","S":"GC","W":"AT","B":"CGT","D":"AGT","H":"ACT","V":"ACG"}

#if ambiguous base occured, change to regular expression format
for word, initial in ambiguous_dic.items():
	primer_f = primer_f.replace(word, "["+initial+"]")
    
#index sequences are allowed one mismatch
primer = r"(^{0})".format(primer_f)+"{e<=1}"

#if primer sequence is inside sequence, print out.
if regex.findall(primer, sequence):
	print(sequence)

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

logging 모듈 사용하기 (0)	2022.02.17
f-string을 활용한 regex 사용법 (0)	2022.02.15
String Format으로 길이 고정하기 (0)	2020.06.24
python multi-level argparse (0)	2019.07.12
python 파일 입출력 (0)	2019.07.12

Kaggle 이란

바닐라스카이 2021. 8. 5. 11:24

2021. 8. 5. 11:24

Kaggle이란 데이터 과학자와 머신 러닝 사용자의 스킬과 정보 공유를 위해 만들어진 커뮤니티이다.

주기적으로 열리는 Competetion을 통해 상금과 명성을 얻을 수도 있고

Courses 에서 학습을 할 수도 있다.

상당히 공신력 있는 커뮤니티라서 입상 실적은 ML/AL 경력으로 인정해주는 회사도 있다.

Kaggle korea 페이스북 커뮤니티도 있으니 참고하면 좋을 듯 하다.

https://www.facebook.com/groups/KaggleKoreaOpenGroup/

저작자표시 비영리 변경금지 (새창열림)

'Data Science > machine learning' 카테고리의 다른 글

분류(Classification)란? (2)	2024.09.27
회귀(Regression)의 정의 (3)	2024.09.27
머신러닝의 정의와 기초 개념 (1)	2024.09.26
LLM(대형 언어 모델) 개요 및 주요 모델 비교: BERT, GPT, GENNMINI, LLaMA (2)	2024.09.23
추론 시스템 만들기 (0)	2024.09.09

NIPT fetal DNA fraction Estimation

바닐라스카이 2021. 6. 22. 15:07

2021. 6. 22. 15:07

임산부의 플라즈마에서 태아의 cell-free DNA의 존재가 밝혀지면서 NIPT (Noninvasive prenatal test)가 만들어졌고 태아의 비이상성을 검출하기 위한 방법으로 널리 사용되고 있다.

하지만 임산부의 플라즈마에서 태아의 DNA 비율이 어느정도인지에 따라 검사의 정확도가 좌우되기때문에 정확한 비율을 알아내는 것이 필요해졌고 여러 종류의 생물정보학 분석 방법이 사용되었다.

1. Y 염색체 기반

예전에는 SRY, DYS14, ZFY 같은 유전자에 마커를 사용하여 측정하였으나 최근에는 Y 염색체 전체의 비율을 계산한 것으로 FF로 계산한다. 간단하고 정확한 편이나 남아에게만 적용할 수 있는 한계가 있다.

2. 부계 Genotype 정보를 이용

SNP 중에 부계에서 A/A, 모계에 C/C 처럼 homo로 가지고 있는 경우 태아는 A/C hetero를 가질 수 밖에 없다. 전체 서열 중에 A가 가지는 비율을 계산하면 FF를 추정 할 수 있다. 이 방법도 정확도가 높은 편이지만 부계의 SNP정보를 필요로 하다는 점에서 추가 비용이 필요하다.

3. high-depth 시퀀싱 데이터

부계 genotype 정보가 없어도 충분한 depth가 확보된다면 나오는 결과를 기반으로 모계 genotype과 태아의 genotype을 추정 할 수 있다. 대략 ~120x 정도의 depth일 때 신뢰할 만하다는 연구 결과가 있다.

4. 모계 genotype 정보를 이용한 shallow-depth 시퀀싱

모계 SNP 정보를 정확히 알고 있다면 depth가 많지 않아도 FF 예측이 가능하다. 모계에서 homozygous site를 추려낸 후 이 중에 hetero 서열을 가지는 곳의 비율을 계산하면 된다. 2번과 비슷하게 SNP 정보를 microarray 등을 통해 미리 확보해야 하는 단점이 있다.

5. 시퀀싱 데이터를 기반으로한 shallow-depth 시퀀싱

50KB 단위로 염색체의 영역을 나눈 뒤 read count를 계산하여 FF값을 추정하는 SeqFF 라고 불리우는 방법이 있다. Enet과 reduced-rank regression 모델과 coefficient를 계산했을 때 각각 0.932와 0.938의 r값을 가진다. 이 방법은 실제 FF가 5% 미만일 때는 정확도를 보장할 수 없으며 대용량 데이터로 예측 모델을 만들어야하는 단점이 있다.

6. 메틸화 마커

포유류는 CpG 염기에서 C가 ~70% 정도 메틸화 되어 있다. 메틸화가 되는 위치에 따라 세포의 역할이 바뀌는데 태반 특이적 메틸화 마커인 RASSF1A 프로모터 서열 등에서 태아에서만 메틸화 되는 영역을 찾아, 모계 DNA 서열에서의 메틸화 되지 않는 영역과 비교하여 FF를 계산한다. Y 염색체 기반 FF 예측과 0.85의 correlation을 가지는 것을 확인하였으며 대규모 데이터셋에서 깊이있는 연구가 필요하다.

7. Cell-free DNA 사이즈 기반

태아의 DNA는 엄마의 DNA보다 짧은 편이다. 따라서 FF 값이 높다면 짧은 DNA의 비율이 늘어날 것이다. paired-end 데이터에서 100-150bp와 163-169bp의 DNA 사이즈 구분을 통해 Y염색체 기반과 0.827의 r값을 가지는 결과를 만들었다.

8. Cell-free DNA 뉴클레오좀 기반

Reference -

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5343987/

저작자표시 비영리 변경금지 (새창열림)

NIPT 분석

바닐라스카이 2021. 6. 1. 14:02

2021. 6. 1. 14:02

Noninvasive prenatal testing (NIPT)는 태아의 유전적 이상을 찾아내는 방법 중 하나로 임부의 피에 떠다니는 cell free DNA(cfDNA)를 검사한다. 침습적 방법의 경우 주사를 직접 태반에 찔러 넣는 방식으로 낮은 확률의 사산이 생길 수 있는것에 비해 안정적이지만 검사의 정확도가 상대적으로 낮은 단점이 있다.

cfDNA는 약 200bp의 길이로 일반적으로는 세포가 죽을 때 생기는 부산물이며 혈류를 따라 이동한다. 임신 중에는 태반 세포의 일부도 cfDNA가 되는데 태반의 DNA는 태아의 DNA와 일치하기 때문에 이 DNA를 NGS 방식으로 시퀀싱 하여 태아의 DNA를 분석할 수 있다.

NIPT는 주로 aneuploidy 같은 염색체 이상 질환에 대해 검사한다. 특히나 주로 보는 것은 trisomy 21(다운 증후군), trisomy 18, trisomy 13 그리고 X, Y 염색체의 수 이상 등이 있다.

염색체 특정 영역의 deletion 또는 duplication도 확인 하기도 한다.

엄마의 피에서 태아의 DNA가 차지하는 비율을 "fetal fraction" 이라고 부른다. 10주 이상일 때 보통 4퍼센트 이상이며 만약 이보다 낮다면 검사의 정확도가 낮아져 위양성 결과가 나올 수 있다. 샘플링 에러, 엄마의 비만 또는 태아의 비정상적인 부분이 있다면 fetal fraction이 낮게 나올 수 있다.

염색체 이상을 찾아내는 방법은 태아와 엄마의 모든 cfDNA 조각의 개수를 세고 모든 염색체의 비율이 비슷하다면 염색체 이상이 있을 확률은 낮은 것으로 본다. 만약 특정 염색체의 조각이 많다면 trisomy를 의심해 볼 수 있다. NIPT는 정확도가 높지 않기 때문에 추가적인 검사로 양성 판단이 필요하다.

Reference -

https://medlineplus.gov/genetics/understanding/testing/nipt/

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

Argo workflow를 사용한 파이프라인 관리 (0)	2024.09.22
연구실 정보 관리 시스템 (LIMS)의 사용 (0)	2024.08.26
gnomAD (0)	2020.06.25
Phred quality score (0)	2020.03.11
Sequencing QC (0)	2020.03.11

Jupyter notebook 설정

바닐라스카이 2020. 11. 3. 16:51

2020. 11. 3. 16:51

$jupyter notebook --no-browser --port=8888

명령어로 jupyter notebook 실행. 아래 화면으로 정상 실행됨과 포트를 확인.

$ jupyter notebook --no-browser --port=8888
[I 16:25:24.807 NotebookApp] Serving notebooks from local directory: 
[I 16:25:24.807 NotebookApp] Jupyter Notebook 6.1.4 is running at:
[I 16:25:24.807 NotebookApp] http://localhost:8888/
[I 16:25:24.807 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

1. PuTTY

2. XShell

수신대상서버의 port = jyupter 실행 port

remote 서버의 port = 사용자 pc에서의 port

위와 같은 설정이라면 브라우져에서 http://localhost:8889 일때 실행 가능함.

jupyter notebook 실행시 나오는 링크는 8888로 설정되어있기 때문에 두 포트 넘버를 같게 하는게 편함.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

conda 채널 추가 (0)	2022.02.22
conda proxy 에러 해결방법 (0)	2022.02.07
Centos yum repo 변경 (0)	2020.08.03
github로 스크립트 관리하기 AtoZ (0)	2020.07.29
Linux hosts 파일 변경 (0)	2020.07.14

Perl. CPAN 과 PERL5LIB 설정.

바닐라스카이 2020. 10. 13. 15:21

2020. 10. 13. 15:21

local 설치를 위해서 또는 공유되는 폴더에 설치하기 위해서 perl module 다운로드시 CPAN의 install dir 설정을 변경하고 PERL5LIB이 이 폴더를 잡도록 설정한다.

$ cpan
cpan[3]> o conf init
cpan[4]> o conf makepl_arg INSTALL_BASE=/DIR/To/INSTALL/PERL
cpan[5]> exit

export PERL5LIB=/DIR/To/INSTALL/PERL/lib/perl5:$PERL5LIB

CPAN으로 모듈을 install 하면 자동으로 인식함.

저작자표시 비영리 변경금지 (새창열림)

Centos yum repo 변경

바닐라스카이 2020. 8. 3. 10:19

2020. 8. 3. 10:19

국내 미러사이트 중 하나인 daum으로 변경하는 법.

현재 적용중인 repolist 확인.

yum repolist

기존 repolist는 압축하여 사용 안하도록 설정.

bzip2 /etc/yum.repos.d/CentOS-*.repo

/etc/yum.repos.d/Daum.repo 생성하기.

[base]
name=CentOS-$releasever - Base
baseurl=http://ftp.daumkakao.com/centos/$releasever/os/$basearch/
gpgcheck=0
[updates]
name=CentOS-$releasever - Updates
baseurl=http://ftp.daumkakao.com/centos/$releasever/updates/$basearch/
gpgcheck=0
[extras]
name=CentOS-$releasever - Extras
baseurl=http://ftp.daumkakao.com/centos/$releasever/extras/$basearch/
gpgcheck=0

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

conda proxy 에러 해결방법 (0)	2022.02.07
Jupyter notebook 설정 (0)	2020.11.03
github로 스크립트 관리하기 AtoZ (0)	2020.07.29
Linux hosts 파일 변경 (0)	2020.07.14
hostname 변경 (0)	2020.07.14

github로 스크립트 관리하기 AtoZ

바닐라스카이 2020. 7. 29. 16:24

2020. 7. 29. 16:24

우선 당연하게도 https://github.com 에서 신규 가입을 해야한다.

모든 데이터를 저장/불러오기 할 때 Username과 Email이 필요하기때문에 본인임을 확인할 수 있는 계정으로 생성한다.

계정이 생성되면 저장소(repository)를 생성해야한다. 동시에 여러 개의 저장소를 만들 수 있기 때문에 규모가 크다면 프로젝트별로, 작다면 하나의 저장소 안에 폴더를 나누어 저장하는 것이 좋다.

Repository name이 앞으로 사용할 저장소 이름이다.

외부 인원이 접근하지 못하도록 Private로 설정하고 필요에 따라 README 파일 생성에 체크를 하도록 한다.

위와 같이 README가 포함된 저장소가 생성되었다.

저장소가 생성되었으니 리눅스 서버에서 스크립트를 저장하는 방법을 설명하겠다.

테스트를 위해 임의의 디렉토리 test를 생성하였다.

$ mkdir /test
$ cd /test
$ pwd
/test

생성된 폴더를 git 저장소로 사용하기위해 git init 명령어를 입력한다. 앞으로 해당 폴더 내에서 이뤄지는 변경사항을 저장할 수 있게 되었다. 그리고 테스트를 위한 새로운 파일 test.txt를 생성하였다.

$ git init
/test/.git/
$ touch test.txt
$ ll
total 0
-rw-r--r-- 1 root root 0 Jul 29 14:32 test.txt

git add test.txt는 test.txt 파일을 commit기위해 선별하는 과정이다. 저장소에 디렉토리내의 모든 파일을 저장하는 것이 아니고 선택된 파일들만 저장하기때문에 단계가 나뉘어져있다.

불편해 보일 수 있지만 github의 장점이 버전관리임을 생각하면 매 번 모든 파일을 업데이트하는것은 오히려 불필요하다는 것을 알 수 있다. 물론 원한다면 -a 옵션을 사용하요 한 번에 모두 업데이트 할 수 있다.

git commit -m "test"는 add 명령어로 선택된 파일들을 하나의 패키지로 묶어준다. -m 은 묶음에 메모를 남기는 것이다.

$ git add test.txt
$ git commit -m "test"
[master (root-commit) 6c12673] test
 1 file changed, 0 insertions(+), 0 deletions(-)
 create mode 100644 test.txt
$ git status
# On branch master
nothing to commit, working directory clean

저장소에 대한 업데이트가 필요하다. 앞으로 사용되는 "test" 라는 변수는 아래의 주소를 가리키게 될 것이다.

저장소를 새롭게 만들때마다 아래와 같은 작업이 최소 1회 필요하다.

git remote add test https://github.com/[UserName]/test

업로드를 하기 전에 git pull을 먼저 해야한다. 기존 저장소의 파일과 동기화가 이루어져야 업로드 할 수 있기 때문이다.

이 과정을 무시하고 싶다면 push과정에서 -f로 강제로 업로드 하는 방법이 있지만 추천하지 않는다.

$ git pull test master
 * branch            master     -> FETCH_HEAD
Merge made by the 'recursive' strategy.
 README.md | 1 +
 1 file changed, 1 insertion(+)
 create mode 100644 README.md

이제 test.txt파일을 포함하고있는 commit을 웹 저장소에 올려보자. git push test를하면 위에서 정의한 test 저장소에 commit을 업로드 한다.

git push test

test.txt파일이 업로드 된 것을 확인할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Jupyter notebook 설정 (0)	2020.11.03
Centos yum repo 변경 (0)	2020.08.03
Linux hosts 파일 변경 (0)	2020.07.14
hostname 변경 (0)	2020.07.14
Google Cloud SDK linux 설치 (0)	2020.05.26

Linux hosts 파일 변경

바닐라스카이 2020. 7. 14. 11:04

2020. 7. 14. 11:04

/etc/hosts 파일 내에서 변경.

127.0.0.1 localhost.localdomain localhost 
::1 localhost6.localdomain6 localhost6 
8.8.8.8 testhost

파일 수정 후 곧 바로 적용된다.

ssh testhost 처럼 입력해도 ip 8.8.8.8 로 접속하게 된다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Centos yum repo 변경 (0)	2020.08.03
github로 스크립트 관리하기 AtoZ (0)	2020.07.29
hostname 변경 (0)	2020.07.14
Google Cloud SDK linux 설치 (0)	2020.05.26
사용자 환경 변수 동적 변경 프로그램 Environment Modules (0)	2020.02.27

PREV 이전 1 ···5 6 7 8 9 10 11 ···20 NEXT 다음

Be great