'분류 전체보기' 카테고리의 글 목록 (9 Page)

분류 전체보기

hostname 변경 2020.07.14
gnomAD 2020.06.25
String Format으로 길이 고정하기 2020.06.24
Eclipse로 ssh 사용하기 2020.06.05
Google Cloud SDK linux 설치 2020.05.26
Phred quality score 2020.03.11
Sequencing QC 2020.03.11
사용자 환경 변수 동적 변경 프로그램 Environment Modules 2020.02.27
계정, 그룹 생성, 추가 및 삭제 2020.02.24
Zip 압축하기 / 압축 해제하기 2020.02.24

hostname 변경

바닐라스카이 2020. 7. 14. 10:40

2020. 7. 14. 10:40

#CentOS 6 
[root@localhost ~]# vi /etc/sysconfig/network 
HOSTNAME=myhost 

#CentOS 7 
[root@localhost ~]# hostnamectl set-hostname myhost

변경 후 ssh 재접속.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

github로 스크립트 관리하기 AtoZ (0)	2020.07.29
Linux hosts 파일 변경 (0)	2020.07.14
Google Cloud SDK linux 설치 (0)	2020.05.26
사용자 환경 변수 동적 변경 프로그램 Environment Modules (0)	2020.02.27
계정, 그룹 생성, 추가 및 삭제 (0)	2020.02.24

gnomAD

바닐라스카이 2020. 6. 25. 11:10

2020. 6. 25. 11:10

gnomAD란 gnome aggregation database의 줄임말로 전 세계의 다양한 large-scale exome과 genome sequencing 데이터를 모은 데이터 베이스이다.

https://gnomad.broadinstitute.org/

gnomAD

gnomad.broadinstitute.org

v2(GRCh37/hg19)와 v3(GRCh38)로 나누어져있으며 각각 독립적인 데이터이기때문에 Reference 버전에 따라 선택하면 된다. v2 기준으로 125,748개의 exome sequence와 15,708개의 whole-genome sequence를 가지고 있다.

데이터 다운로드는 아래 주소에서 할 수 있다.

https://gnomad.broadinstitute.org/downloads

gnomAD

gnomad.broadinstitute.org

주요 사용처는 variant calling에 사용되는데 예를 들어 GATK4 버전에서 somatic variant calling을 위해 Mutect2를 쓸 때 옵션으로 들어가는 정보가 gnomad이다.

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

연구실 정보 관리 시스템 (LIMS)의 사용 (0)	2024.08.26
NIPT 분석 (0)	2021.06.01
Phred quality score (0)	2020.03.11
Sequencing QC (0)	2020.03.11
HLA genotyping (0)	2020.02.21

String Format으로 길이 고정하기

바닐라스카이 2020. 6. 24. 16:40

2020. 6. 24. 16:40

string의 format 함수로 글자 길이 고정하기.

print('{:<5s} [{:20s}] {:^30s} {:>5s}'.format('#####', time.ctime(), cnt_step,'#####'))

들여쓰기 하고 싶은 방향에 따라 <, ^, >를 넣어주면 된다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

f-string을 활용한 regex 사용법 (0)	2022.02.15
Primer 서열 분석을 위한 python 코드 (0)	2021.08.17
python multi-level argparse (0)	2019.07.12
python 파일 입출력 (0)	2019.07.12
Python 설치 및 실행하기 (0)	2017.08.16

Eclipse로 ssh 사용하기

바닐라스카이 2020. 6. 5. 14:31

2020. 6. 5. 14:31

통합 개발 환경 플랫폼 Eclipse를 사용하여 linux 서버에 ssh로 연결하여 스크립트 실행, 코딩 등을 할 수 있다.

프록시 등 기본 기능도 지원하고 있으며 vi를 쓰지 않아도 되고 ftp도 동시에 지원가능한 것이 가장 큰 장점인듯하다.

추가 편의 기능에 대해서는 차차 업데이트 하고 초기 셋팅만 설명하려고 한다.

최신버전 eclipse 다운로드 - https://www.eclipse.org/downloads/

Eclipse Downloads | The Eclipse Foundation

The Eclipse Foundation - home to a global community, the Eclipse IDE, Jakarta EE and over 350 open source projects, including runtimes, tools and frameworks.

www.eclipse.org

다운로드받고 설치할 때 무슨 버전을 받을지 물어보는데 사용하는 언어에 맞게 설치하면 된다. 어차피 패키지 다운로드 받으면 필요한 기능은 다 사용할 수 있다.

Remote System Explorer를 설치하기 위해 Help -> Install New Software. work with에

http://download.eclipse.org/releases/luna를 입력한다. Remote를 검색하여 Remote System Explorer End-User Runtime를 설치한다.

오른쪽 하단 설치바가 끝까지 가면 Eclipse가 재시작되고 난 후 Window -> Perspective -> Open Perspective -> Other에서 Remote System Explorer를 찾는다.

새로운 창에서 New Connection을 찾고 SSH Only로 접속한 후 Host name에 주소를 입력하고 진행하면 된다.

proxy를 사용해서 접속해야 한다면 Configure proxy setting에 들어가서 Active Provider를 Manual로 바꾸고 SOCKS에 값을 입력하면 된다.

저작자표시 비영리 변경금지 (새창열림)

Google Cloud SDK linux 설치

바닐라스카이 2020. 5. 26. 17:50

2020. 5. 26. 17:50

Google Cloud Platform에 올라와있는 데이터를 다운로드하기위해서 설치한다.

https://cloud.google.com/sdk/docs/downloads-yum?hl=ko

yum을 사용하여 설치(Red Hat 및 CentOS) | Cloud SDK 문서 | Google Cloud

Cloud SDK는 Red Hat Enterprise Linux 7, Red Hat Enterprise Linux 8, CentOS 7 시스템에 설치할 수 있는 패키지 형식으로 제공됩니다. 이 패키지에는 gcloud, gcloud alpha, gcloud beta, gsutil, bq 명령어만 포함됩니다. gcloud �

cloud.google.com

1. 링크에 쓰여져 있는대로 repository에 cloud SDK 정보를 업데이트 해주어야 한다.

sudo tee -a /etc/yum.repos.d/google-cloud-sdk.repo << EOM
[google-cloud-sdk]
name=Google Cloud SDK
baseurl=https://packages.cloud.google.com/yum/repos/cloud-sdk-el7-x86_64
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://packages.cloud.google.com/yum/doc/yum-key.gpg
       https://packages.cloud.google.com/yum/doc/rpm-package-key.gpg
EOM

2. Cloud SDK를 설치한다.

yum install google-cloud-sdk

3. 데이터를 다운로드 한다.

gsutil cp gs://gatk-best-practices/somatic-b37/* .

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Linux hosts 파일 변경 (0)	2020.07.14
hostname 변경 (0)	2020.07.14
사용자 환경 변수 동적 변경 프로그램 Environment Modules (0)	2020.02.27
계정, 그룹 생성, 추가 및 삭제 (0)	2020.02.24
Zip 압축하기 / 압축 해제하기 (0)	2020.02.24

Phred quality score

바닐라스카이 2020. 3. 11. 12:41

2020. 3. 11. 12:41

Phred quality score란 NGS 시퀀싱으로 생성된 fastq파일에서 각각의 염기가 가지는 품질. 다른 의미로는 정확도를 나타는 지표이다.

Human genome project에서 시작한 개념으로 염기는 기계로 읽을 때 필수적으로 에러가 생길 수 밖에 없는데 quality score는 에러를 확률적으로 표시해 준다. 이 정확도 Q는 아래의 공식을 가진다.

다시말해 A라고 읽혀진 어떠한 염기가 90%의 확률의 정확도를 가진다면 quality score는 10, 99%는 20을 가진다는 의미이다.

염기가 확률을 가진다는 의미는 chemical signal을 digital 신호로 바꾸는 과정에서 오차가 생길 수 있기 때문이다. cluster 단위에서는 A가 붉은색 G가 노란색인데 cluster의 색이 아주 약간의 노란색이 섞인 붉은색이 관찰된다면 이를 100% A라고 할 수 없기 때문이다.

이 숫자는 두 자리 수 인데 염기는 한 자리이니 맞지 않는다. 그래서 숫자를 ASCII 코드로 변환하여 표시한다.

ASCII code 테이블에서 Dec(10진수)로 표시된 숫자가 실제 quality score에 해당한다. 단 fastq파일 형식이 phred +33 또는 +64일텐데 이 수치만큼 더해주어야한다. phred+33일때 quality score가 20이라면 53에 해당하는 '5' 라는 형식이다.

최근 생산되는 데이터는 대부분 +33이지만 보다 확실하게 구분하고 싶다면 직접 fastq파일의 qulity score를 살펴보면 된다. 이론적으로 +64라면 '@' 가 0이기때문에 이 이하의 문자는 가질 수가 없다. 있다면 +33 인것이다.

출처 -

https://en.wikipedia.org/wiki/Phred_quality_score

Phred quality score - Wikipedia

Phred quality scores shown on a DNA sequence trace A Phred quality score is a measure of the quality of the identification of the nucleobases generated by automated DNA sequencing.[1][2] It was originally developed for Phred base calling to help in the aut

en.wikipedia.org

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

NIPT 분석 (0)	2021.06.01
gnomAD (0)	2020.06.25
Sequencing QC (0)	2020.03.11
HLA genotyping (0)	2020.02.21
SnpEff 빌드하기 (0)	2019.09.30

Sequencing QC

바닐라스카이 2020. 3. 11. 11:04

2020. 3. 11. 11:04

WGS, RNA-seq, sRNA-seq 등 시퀀싱 테크닉에따라 그리고 샘플의 종(species)에 따라 QC기준은 달라질 수 밖에 없지만 사람을 기준으로 대표적인 QC기준을 설명하고자 한다.

크게 실험단계에서의 라이브러리 제작이 잘 되는지 QC가 있고 시퀀싱이 진행된 후에 BI 기준의 QC가 있다.

실험 QC는 잘 모르니 생략하고 BI기준의 시퀀싱 이후 단계만 요약하고자 한다.

가장 첫 번째 단계는 Illumina 시퀀서 기준으로 PF(passing filter)가 있다.

passing filter란 시퀀싱 단계에서 일어나는 cluster가 얼마나 잘 구성되었는지 여부를 의미한다. cluster들끼리 오버랩되면 에러가 생길 가능성이 커져 오버랩이 일어난 cluster는 모두 제거하는데 이 비율이 얼마나 되는지 수치가 PF값이다.

https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/hiseq-x-percent-pf-technical-note-770-2014-043.pdf

불러오는 중입니다...

PF값은 참고용으로만 사용할 뿐 실제 분석에서는 대부분 raw file인 fastq 파일부터 시작하기 때문에 QC는 아래 값들을 주로 사용한다.

fastq파일의 Number of reads, GCratio, Q20, Q30, N(%), Duplication rate, Adapter sequence

BAM파일의 Mapping rate, House-keeping gene expression, Insert size distribution

각각의 수치를 구하는 방법은 여러 종류의 tool이 있으나 FastQC가 fastq 수준에서는 가장 많이 사용한다.

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

www.bioinformatics.babraham.ac.uk

BAM파일은 alignment tool에 따라서 수치를 제공하는 프로그램도 있고 samtools stats 명령어를 통해서도 확인 가능하다.

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

gnomAD (0)	2020.06.25
Phred quality score (0)	2020.03.11
HLA genotyping (0)	2020.02.21
SnpEff 빌드하기 (0)	2019.09.30
GC bias in the first few bases. (0)	2019.07.04

사용자 환경 변수 동적 변경 프로그램 Environment Modules

바닐라스카이 2020. 2. 27. 09:42

2020. 2. 27. 09:42

공용으로 사용하는 서버에서 리눅스에 설치된 tool들의 환경변수 변경은 버전관리가 까다롭다.

Environment Modules을 설치하면 이런 부분을 상당히 쉽게 처리할 수 있다.

관리자(또는 유저가 직접 해도 상관없다)가 프로그램들의 경로를 미리 설정해놓고 그때 그때 필요한 버전을 로드하여 환경 변수를 변화시킨다.

https://modules.readthedocs.io/en/latest/index.html

Environment Modules — Modules documentation

modules.readthedocs.io

다운로드는 https://github.com/cea-hpc/modules git hub에서 다운받아 진행한다.

cea-hpc/modules

Environment Modules: provides dynamic modification of a user's environment - cea-hpc/modules

github.com

압축을 풀고 아래처럼 설치한다.

$ ./configure --prefix=/usr/share/Modules \
              --modulefilesdir=/etc/modulefiles
$ make
$ make install

modulfilesdir은 path가 설정되어 있는 파일이 위치하는 폴더이다.

/etc/modulefiles/gcc/9.2.0 파일을 만들고 아래처럼 내용을 채운다.

#%Module1.0######################################################################
##
## GCC modulefile
##
proc ModulesHelp { } {
    puts stderr "\tThe GCC Module\n"
    puts stderr "\tThis module adds GCC directory to your path."
}

module-whatis   "adds `.' to your PATH environment variable"

conflict gcc

module load mpfr mpc gmp
#prereq gmp

prepend-path    PATH    /data/Tools/gcc/gcc-9.2.0/bin
prepend-path    PATH    /data/Tools/gcc/gcc-9.2.0/include
prepend-path    PATH    /data/Tools/gcc/gcc-9.2.0/share
prepend-path    LD_LIBRARY_PATH /data/Tools/gcc/gcc-9.2.0/lib
prepend-path    LD_LIBRARY_PATH /data/Tools/gcc/gcc-9.2.0/lib64
prepend-path    LD_LIBRARY_PATH /data/Tools/gcc/gcc-9.2.0/libexec

홈페이지 메뉴얼을 참고하면 되지만 필요한 부분만 언급하자면

modulefiles폴더 하위폴더로 gcc가 모듈의 이름이며 9.2.0이 버전이다.

module load gcc 또는 module load gcc/9.2.0 으로 로드 할 수 있으며 버전을 명시하지 않을 경우 숫자가 가장 높은 버전을 자동으로 로드한다.

conflict는 해당 모듈이름과 동시에 로드 할 수 없는 것으로 동일 프로그램의 여러 버전이 로드되는 것을 방지할 수 있다.

module load는 gcc 모듈을 사용하기위해 dependency가 있는 다른 모듈을 로드하는 것이다.

prereq는 해당 모듈이 있지 않으면 에러가 난다.

prepend-path는 PATH의 앞에 해당 경로를 추가하는 것이다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

hostname 변경 (0)	2020.07.14
Google Cloud SDK linux 설치 (0)	2020.05.26
계정, 그룹 생성, 추가 및 삭제 (0)	2020.02.24
Zip 압축하기 / 압축 해제하기 (0)	2020.02.24
crontab 사용하기 (0)	2020.02.21

계정, 그룹 생성, 추가 및 삭제

바닐라스카이 2020. 2. 24. 16:15

2020. 2. 24. 16:15

useradd는 모든 설정을 지정해주어야하기때문에 adduser를 사용하기로 한다.

필요에따라 userid와 groupid를 넣어서 만들고 passwd userid를 입력하여 비밀번호도 지정한다.

adduser -u [id] -g [group] <userid>
passwd userid

userid와 groupid에 대한 정보는 아래 폴더에 존재한다.

/etc/passwd
user1:x:765:1000::/home/user1:/bin/bash 

/etc/group
user:x:999: 
guest:x:900:
test1:x:1000:user1,user2,user3
test2:x:1001:user2

passwd 파일 안에는 아이디, uid, groupid, home 폴더 위치 등이 존재한다.

uid 또는 gid를 이 파일 내에서 수정해도 되지만 이럴 경우 이미 만들어진 폴더, 파일등에서도 gid 정보 등을 같이 수정해줘야하는 불편함이 있다.

처음 생성할 때 정하는것이 좋다.

group 파일 안에는 그룹 이름과 gid, 해당 그룹에 속하는 아이디 등이 존재한다.

user1, user2, user3 모두 test1 그룹에 속하며 user2는 test2 그룹에도 동시에 속한다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Google Cloud SDK linux 설치 (0)	2020.05.26
사용자 환경 변수 동적 변경 프로그램 Environment Modules (0)	2020.02.27
Zip 압축하기 / 압축 해제하기 (0)	2020.02.24
crontab 사용하기 (0)	2020.02.21
su 와 su- 의 차이 (1)	2019.09.19

Zip 압축하기 / 압축 해제하기

바닐라스카이 2020. 2. 24. 11:06

2020. 2. 24. 11:06

zip으로 압축할 때

경로내의 모든 하위 폴더도 압축하려면

zip -r newfile.zip /path/to/directory/

zip으로 압축 해제 할 때

원하는 파일들만 압축 해제

unzip a.zip b.zip c.zip

디렉토리 내의 모든 zip파일 해제

unzip '*.zip'

여러 파일을 압축 해제하는데 특정 폴더에 넣고 싶을 때

unzip '*.zip' -d /path/to/directory/

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

사용자 환경 변수 동적 변경 프로그램 Environment Modules (0)	2020.02.27
계정, 그룹 생성, 추가 및 삭제 (0)	2020.02.24
crontab 사용하기 (0)	2020.02.21
su 와 su- 의 차이 (1)	2019.09.19
Linux 새 디스크 연결하기 (0)	2019.08.30

PREV 이전 1 ···6 7 8 9 10 11 12 ···20 NEXT 다음

Be great