반응형

string의 format 함수로 글자 길이 고정하기.

 

print('{:<5s} [{:20s}] {:^30s} {:>5s}'.format('#####', time.ctime(), cnt_step,'#####'))

 

들여쓰기 하고 싶은 방향에 따라 <, ^, >를 넣어주면 된다.

반응형

'Computer Science > python' 카테고리의 다른 글

f-string을 활용한 regex 사용법  (0) 2022.02.15
Primer 서열 분석을 위한 python 코드  (0) 2021.08.17
python multi-level argparse  (0) 2019.07.12
python 파일 입출력  (0) 2019.07.12
Python 설치 및 실행하기  (0) 2017.08.16
반응형

통합 개발 환경 플랫폼 Eclipse를 사용하여 linux 서버에 ssh로 연결하여 스크립트 실행, 코딩 등을 할 수 있다.

 

프록시 등 기본 기능도 지원하고 있으며 vi를 쓰지 않아도 되고 ftp도 동시에 지원가능한 것이 가장 큰 장점인듯하다.

 

추가 편의 기능에 대해서는 차차 업데이트 하고 초기 셋팅만 설명하려고 한다.

 

최신버전 eclipse 다운로드 - https://www.eclipse.org/downloads/

 

Eclipse Downloads | The Eclipse Foundation

The Eclipse Foundation - home to a global community, the Eclipse IDE, Jakarta EE and over 350 open source projects, including runtimes, tools and frameworks.

www.eclipse.org

 

다운로드받고 설치할 때 무슨 버전을 받을지 물어보는데 사용하는 언어에 맞게 설치하면 된다. 어차피 패키지 다운로드 받으면 필요한 기능은 다 사용할 수 있다.

 

 

Remote System Explorer를 설치하기 위해 Help -> Install New Software. work with에

http://download.eclipse.org/releases/luna를 입력한다. Remote를 검색하여 Remote System Explorer End-User Runtime를 설치한다.

 

오른쪽 하단 설치바가 끝까지 가면 Eclipse가 재시작되고 난 후 Window -> Perspective -> Open Perspective -> Other에서 Remote System Explorer를 찾는다. 

 

새로운 창에서 New Connection을 찾고 SSH Only로 접속한 후 Host name에 주소를 입력하고 진행하면 된다.

 

proxy를 사용해서 접속해야 한다면 Configure proxy setting에 들어가서 Active Provider를 Manual로 바꾸고 SOCKS에 값을 입력하면 된다.

 

 

반응형
반응형

Google Cloud Platform에 올라와있는 데이터를 다운로드하기위해서 설치한다.

 

https://cloud.google.com/sdk/docs/downloads-yum?hl=ko

 

yum을 사용하여 설치(Red Hat 및 CentOS)  |  Cloud SDK 문서  |  Google Cloud

Cloud SDK는 Red Hat Enterprise Linux 7, Red Hat Enterprise Linux 8, CentOS 7 시스템에 설치할 수 있는 패키지 형식으로 제공됩니다. 이 패키지에는 gcloud, gcloud alpha, gcloud beta, gsutil, bq 명령어만 포함됩니다. gcloud �

cloud.google.com

1. 링크에 쓰여져 있는대로 repository에 cloud SDK 정보를 업데이트 해주어야 한다.

sudo tee -a /etc/yum.repos.d/google-cloud-sdk.repo << EOM
[google-cloud-sdk]
name=Google Cloud SDK
baseurl=https://packages.cloud.google.com/yum/repos/cloud-sdk-el7-x86_64
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://packages.cloud.google.com/yum/doc/yum-key.gpg
       https://packages.cloud.google.com/yum/doc/rpm-package-key.gpg
EOM

 

2. Cloud SDK를 설치한다.

yum install google-cloud-sdk

 

3. 데이터를 다운로드 한다.

gsutil cp gs://gatk-best-practices/somatic-b37/* .

 

 

반응형
반응형

Phred quality score란 NGS 시퀀싱으로 생성된 fastq파일에서 각각의 염기가 가지는 품질. 다른 의미로는 정확도를 나타는 지표이다. 

 

Human genome project에서 시작한 개념으로 염기는 기계로 읽을 때 필수적으로 에러가 생길 수 밖에 없는데 quality score는 에러를 확률적으로 표시해 준다. 이 정확도 Q는 아래의 공식을 가진다.

 

다시말해 A라고 읽혀진 어떠한 염기가 90%의 확률의 정확도를 가진다면 quality score는 10, 99%는 20을 가진다는 의미이다. 

 

염기가 확률을 가진다는 의미는 chemical signal을 digital 신호로 바꾸는 과정에서 오차가 생길 수 있기 때문이다. cluster 단위에서는 A가 붉은색 G가 노란색인데 cluster의 색이 아주 약간의 노란색이 섞인 붉은색이 관찰된다면 이를 100% A라고 할 수 없기 때문이다.

 

이 숫자는 두 자리 수 인데 염기는 한 자리이니 맞지 않는다. 그래서 숫자를 ASCII 코드로 변환하여 표시한다. 

 

ASCII code 테이블에서 Dec(10진수)로 표시된 숫자가 실제 quality score에 해당한다. 단 fastq파일 형식이 phred +33 또는 +64일텐데 이 수치만큼 더해주어야한다. phred+33일때 quality score가 20이라면 53에 해당하는 '5' 라는 형식이다.

 

최근 생산되는 데이터는 대부분 +33이지만 보다 확실하게 구분하고 싶다면 직접 fastq파일의 qulity score를 살펴보면 된다. 이론적으로 +64라면 '@' 가 0이기때문에 이 이하의 문자는 가질 수가 없다. 있다면 +33 인것이다.

 

출처 -

https://en.wikipedia.org/wiki/Phred_quality_score

 

Phred quality score - Wikipedia

Phred quality scores shown on a DNA sequence trace A Phred quality score is a measure of the quality of the identification of the nucleobases generated by automated DNA sequencing.[1][2] It was originally developed for Phred base calling to help in the aut

en.wikipedia.org

 

반응형

'bioinformatics' 카테고리의 다른 글

NIPT 분석  (0) 2021.06.01
gnomAD  (0) 2020.06.25
Sequencing QC  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
반응형

WGS, RNA-seq, sRNA-seq 등 시퀀싱 테크닉에따라 그리고 샘플의 종(species)에 따라 QC기준은 달라질 수 밖에 없지만 사람을 기준으로 대표적인 QC기준을 설명하고자 한다.

 

크게 실험단계에서의 라이브러리 제작이 잘 되는지 QC가 있고 시퀀싱이 진행된 후에 BI 기준의 QC가 있다.

 

실험 QC는 잘 모르니 생략하고 BI기준의 시퀀싱 이후 단계만 요약하고자 한다.

 

가장 첫 번째 단계는 Illumina 시퀀서 기준으로 PF(passing filter)가 있다.

 

passing filter란 시퀀싱 단계에서 일어나는 cluster가 얼마나 잘 구성되었는지 여부를 의미한다. cluster들끼리 오버랩되면 에러가 생길 가능성이 커져 오버랩이 일어난 cluster는 모두 제거하는데 이 비율이 얼마나 되는지 수치가 PF값이다.

 

https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/hiseq-x-percent-pf-technical-note-770-2014-043.pdf

불러오는 중입니다...

PF값은 참고용으로만 사용할 뿐 실제 분석에서는 대부분 raw file인 fastq 파일부터 시작하기 때문에 QC는 아래 값들을 주로 사용한다.

 

fastq파일의 Number of reads, GCratio, Q20, Q30, N(%), Duplication rate, Adapter sequence

BAM파일의 Mapping rate, House-keeping gene expression, Insert size distribution

 

각각의 수치를 구하는 방법은 여러 종류의 tool이 있으나 FastQC가 fastq 수준에서는 가장 많이 사용한다.

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

BAM파일은 alignment tool에 따라서 수치를 제공하는 프로그램도 있고 samtools stats 명령어를 통해서도 확인 가능하다. 

반응형

'bioinformatics' 카테고리의 다른 글

gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
GC bias in the first few bases.  (0) 2019.07.04

+ Recent posts