반응형

 

바이오 데이터 분석에서의 직무 분류와 역할 정의

 

이전 글에서는 데이터 과학에서의 직무 분류를 다루었습니다.

 

2024.08.25 - [Data Science] - 데이터 과학에서의 직무 분류

 

데이터 과학에서의 직무 분류

데이터 분석의 중요성과 직무별 역할데이터를 분석하는 주요 이유는 데이터를 수집하고, 정제(ETL), 분석하여 목적에 맞게 활용하기 위함입니다. 이 과정은 단순히 데이터를 수집하는 것에 그치

bgreat.tistory.com

 

최근 많은 바이오 회사들이 차세대 염기서열 분석(NGS, Next-Generation Sequencing) 기술의 발전에 따라 방대한 데이터를 생성하고 있으며, 이를 효과적으로 다룰 수 있는 생물정보학(Bioinformatics)의 필요성을 절감하고 있습니다. 이에 따라 관련 부서를 신설하는 경우가 많지만, 실제 데이터 분석 실무자로서 보면 바이오/메디컬 데이터를 다루는 방식과 일반적인 데이터 분석 업계에서의 접근 방식에 차이가 존재하는 경우가 많습니다. 따라서, 이번 글에서는 바이오/메디컬 데이터를 다루는 데이터 과학자(Data Scientist), 데이터 분석가(Data Analyst), 그리고 데이터 엔지니어(Data Engineer)의 역할을 재정의해 보려 합니다.

 

 

생물정보학과 데이터 과학의 유사점과 차이점

 

생물정보학을 공부할 때 처음 마주하는 데이터 과학자의 직무 분류 그림을 떠올려 봅시다. 여기에서 도메인을 "Biology"로 바꾸면 거의 비슷한 직무 분류가 나타납니다. 예를 들어, 생물정보학자는 생물학적 데이터를 분석하기 위해 데이터 과학의 여러 기술을 적용하며, 통계적 분석과 머신러닝 모델링도 다루기 때문입니다.

 

그러나 중요한 차이점도 존재합니다. 생물정보학에서는 컴퓨터 과학을 단순 코딩으로 해석하는 경우가 있지만, 현대에서는 코딩을 하나의 교양으로 볼 수 있습니다. 즉, 단순 코딩보다는 더 깊이있는 데이터를 다루기 위한 스킬을 익히는 것이 필수입니다.

 

특히 빅데이터 분석의 필요성을 고려하면, 적절한 IT 인프라가 필수적입니다. 대량의 데이터를 다루지 않는 상황이라면 이런 인프라의 필요성을 느끼지 못할 수 있지만, 데이터 분석의 핵심은 빅데이터를 분석하는 것에 있습니다. 따라서, 초기의 데이터 규모가 작다고 해서 분석 환경을 간소화하면, 이후 데이터가 급격히 증가하는 상황에서 중복 투자가 발생할 수 있습니다. 이는 데이터 파이프라인을 다시 구축하고, 데이터를 재처리하는 데 드는 시간과 비용의 낭비를 초래할 수 있습니다.

 

바이오 데이터 분석 팀의 최소 구성

저는 효과적인 바이오 데이터 분석 팀의 최소 구성은 각 분야의 전문가가 최소 1명씩 포함된 팀이라고 생각합니다. 각 분야란 데이터 과학자, 데이터 분석가, 데이터 엔지니어를 의미합니다. 각 전문가는 자신만의 독특한 역할과 스킬 세트를 가지고 있으며, 이들이 협력할 때 데이터 분석의 모든 단계가 원활하게 이루어질 수 있습니다. 이러한 구성은 바이오 데이터 분석의 복잡성을 다루는 데 필수적입니다.

 

 

1. 데이터 과학자 (Data Scientist)

데이터 과학자는 고급 통계학, 머신러닝 알고리즘, 모델링, 데이터 시각화 도구 등에 대한 깊은 이해를 요구하는 직무입니다. 생물정보학에서 데이터 과학자는 생물학적 데이터의 특성을 이해하고, 이를 바탕으로 알고리즘을 개발하는 중요한 역할을 합니다. 연구와 임상 검사 모두에 걸쳐, 데이터 과학자는 데이터에서 유의미한 패턴을 발견하고 예측 모델을 만드는 데 핵심적인 기여를 합니다.

 

예를 들어, 액체 생검에서 산모의 세포유리 DNA(cfDNA)에서 태아의 DNA를 추출하여 염색체 수 이상을 검출하는 검사를 수행할 때, 데이터 과학자는 이러한 데이터를 분석하여 태아의 염색체 이상을 탐지하는 알고리즘을 개발합니다. 이는 흔히 비침습적 산전 검사(NIPT 또는 NIPS)라고 불리며, 태아의 염색체 수 이상뿐만 아니라 미세 결절(microdeletion) 등 다양한 유전적 이상을 탐지하는 데 사용됩니다.

 

더 나아가, 정확한 결과를 예측하기 위해 데이터 과학자는 통계적 방법론이나 머신러닝(ML), 딥러닝(DL) 기술을 사용하여 새로운 예측 모델을 개발합니다. 예를 들어, 태아 분획도(fetal fraction)를 계산하는 다양한 방법론이 존재하며, 이를 통해 보다 정확한 진단과 예측이 가능해집니다. 데이터 과학자는 이러한 복잡한 모델과 알고리즘을 설계하고 최적화하는 전문가로, 바이오 데이터 분석 팀에서 중요한 역할을 수행합니다.

 

2. 데이터 분석가 (Data Analyst)

데이터 분석가는 데이터를 탐색하고, 패턴을 찾아내며, 이를 이해하기 쉬운 형태로 시각화하는 능력이 필요한 직무입니다. 일반적인 데이터 분석과 생물정보학 데이터 분석의 차이는 사용하는 도구와 시각화 방법에서 두드러집니다. 전통적인 데이터 분석에서는 TableauMicrosoft Power BI와 같은 도구를 사용하지만, 생물정보학에서는 주로 과학적 시각화를 위한 도구가 사용됩니다.

 

예를 들어, Plotly의 Dash Bio와 같은 도구를 통해 복잡한 바이오 데이터를 시각화할 수 있으며, 이 외에도 IGV(Integrative Genomics Viewer)KEGG PATHWAY 이미지와 같은 생물학적 시각화 도구들이 자주 사용됩니다. 이러한 도구들은 생물학적 데이터를 직관적이고 이해하기 쉽게 표현하는 데 중요한 역할을 합니다.

 

도메인 지식이 핵심이 되는 데이터 분석가는 데이터 과학자와 밀접하게 협력하여 분석 결과를 해석하고, 임상적 또는 연구적 의미를 도출합니다. 예를 들어, NIPS에서 신생아의 염색체 이상이 예측되었다면, 데이터 분석가는 ACMG의 CNV 해석 가이드라인과 관련된 임상 논문을 참고하여 예상되는 증상이나 질병을 제시할 수 있습니다. 이 역할은 특히 학계에서 중요한데, 분석 결과를 정확히 이해하고 해석하기 위해서는 폭넓은 생물학적 지식과 실험적 배경이 필요하기 때문입니다.

 

3. 데이터 엔지니어 (Data Engineer)

데이터 엔지니어는 데이터 파이프라인을 구축하고 유지보수하며, 대규모 데이터 처리 및 관리 시스템을 설계하는 직무를 담당합니다. 이 직무는 바이오 데이터 분석 팀에서 도메인의 영향을 상대적으로 적게 받지만, 산업계에서는 매우 중요한 역할을 수행합니다.

 

학계의 경우, 연구에 대규모 데이터 처리가 필요하지 않은 경우가 많아 데이터 엔지니어의 필요성이 덜할 수 있지만, 산업계에서는 안정적이고 확장 가능한 데이터 인프라가 필수적입니다. 이는 데이터 수집부터 저장, 처리, 분석에 이르는 전체 과정이 신뢰성 있게 작동해야 하기 때문입니다. 데이터 엔지니어가 이러한 시스템을 제대로 설계하고 유지하지 않으면, 초기에는 문제를 느끼지 못할 수 있지만, 데이터의 양이 증가하거나 복잡성이 높아질 경우 중복 투자가 필요해질 수 있습니다. 따라서, 데이터 엔지니어의 역할은 장기적으로 데이터를 효율적으로 관리하고, 비용을 절감하는 데 필수적입니다.

 

생물정보학과 데이터 분석의 적용 범위

특히, NGS 기술이 대용량 데이터를 생성하기 때문에 생물정보학적 분석에 적합한 것은 사실입니다. 그러나 회사에서 수행하는 지속적인 검사 데이터를 분석하는 데에도 생물정보학자가 충분히 기여할 수 있습니다. 예를 들어, 감염병 유행 검사에서 단순 PCR 데이터로 얻어지는 결과도 체계적으로 수집되고 해석된다면, 바이오 분석의 중요한 인사이트를 제공할 수 있습니다. 이는 생물정보학자가 데이터 분석의 방법론을 적용하여 의미 있는 결과를 도출할 수 있는 또 다른 예시가 됩니다.

 

결론

바이오/메디컬 데이터 분석은 데이터 과학과 유사하면서도 독특한 도전과 기회를 제공합니다. 바이오 데이터 분석 팀이 효과적으로 운영되기 위해서는 각 직무별로 충분한 전문 지식을 갖춘 인력이 필요합니다. 또한, 빅데이터를 다룰 수 있는 인프라와 기술적 준비가 되어 있어야만 데이터의 스케일이 커질 때 발생할 수 있는 문제를 예방하고 효율적으로 확장할 수 있습니다. 생물정보학자와 데이터 과학자는 이러한 환경에서 데이터로부터 가치를 창출하는 데 중요한 역할을 합니다. 바이오 회사들이 이러한 필요성을 인식하고, 적절한 팀 구성과 기술 인프라를 갖추는 것이 중요합니다.

반응형
반응형

데이터 분석의 중요성과 직무별 역할

데이터를 분석하는 주요 이유는 데이터를 수집하고, 정제(ETL), 분석하여 목적에 맞게 활용하기 위함입니다. 이 과정은 단순히 데이터를 수집하는 것에 그치지 않고, 이를 정제하고(ETL: Extract, Transform, Load), 분석하여 실질적인 의사결정에 기여하는 단계까지 이어집니다. 이러한 과정을 효과적으로 수행하려면 다양한 스킬이 필요하며, 크게 세 가지 영역으로 나눌 수 있습니다: 도메인 지식, 컴퓨터 과학 지식, 그리고 분석 및 모델링 지식입니다.

 

이러한 지식들은 각각의 직무에 따라 요구되는 수준이 다르며, 최근에는 데이터 관련 직무를 크게 세 가지로 분류하는 경향이 있습니다: 데이터 사이언티스트(Data Scientist), 데이터 분석가(Data Analyst), 그리고 데이터 엔지니어(Data Engineer)입니다. 경우에 따라 MLops 엔지니어 또는 머신러닝 엔지니어(ML Engineer)가 추가되기도 합니다.

 

 

개인적으로는 다른 직무에 대한 이해도가 그림보다는 더 많이 있어야 협업이 잘 된다고 생각하지만 정답은 없습니다.

 

데이터 관련 직무와 필요한 스킬

각 직무별로 요구되는 구체적인 역할과 스킬은 다음과 같이 요약할 수 있습니다:

  1. 데이터 사이언티스트(Data Scientist):
    • 역할: 복잡한 데이터 문제를 해결하기 위해 통계적 분석과 머신러닝 모델을 설계하고 구현합니다. 비즈니스 문제를 데이터 문제로 변환하고, 데이터에서 통찰을 도출하여 의사결정에 활용될 수 있도록 합니다.
    • 필요한 스킬: 고급 통계학, 머신러닝, 데이터 시각화, 프로그래밍 언어(Python, R 등), 데이터 처리 및 모델링 도구(Pandas, Scikit-Learn, TensorFlow 등).
  2. 데이터 분석가(Data Analyst):
    • 역할: 데이터로부터 의미 있는 인사이트를 도출하고, 데이터를 시각적으로 표현하여 비즈니스 의사결정에 필요한 정보를 제공합니다. 대개 비즈니스 팀과 협력하여 필요한 데이터를 분석하고 리포트를 작성합니다.
    • 필요한 스킬: SQL, 데이터 시각화 도구(Tableau, Microsoft Power BI 등), 통계적 분석, 엑셀과 같은 스프레드시트 소프트웨어. 코딩 스킬은 필수적이지 않을 수 있으나, 도메인 지식과 데이터를 다루는 기술이 중요합니다.
  3. 데이터 엔지니어(Data Engineer):
    • 역할: 데이터 수집, 저장, 처리 파이프라인을 구축하고 유지합니다. 대규모 데이터베이스 및 데이터 웨어하우스를 설계하고 최적화하며, 데이터를 분석가와 데이터 사이언티스트가 쉽게 접근하고 사용할 수 있도록 합니다.
    • 필요한 스킬: 데이터베이스 관리(SQL, NoSQL), ETL 파이프라인 구축(Apache Kafka, Apache Spark 등), 클라우드 플랫폼(AWS, GCP, Azure), 프로그래밍 언어(Python, Java, Scala 등).
  4. MLops 엔지니어 또는 머신러닝 엔지니어(ML Engineer):
    • 역할: 머신러닝 모델의 개발과 배포를 담당하며, 모델이 운영 환경에서 효과적으로 작동하도록 보장합니다. 모델의 성능을 모니터링하고, 필요 시 업데이트 및 재훈련을 실시합니다.
    • 필요한 스킬: 머신러닝 알고리즘, 모델 배포 및 모니터링 도구(Docker, Kubernetes, MLflow), 클라우드 플랫폼 활용, 데이터 엔지니어링.

직무 간 협업의 중요성

개인적으로는 데이터 관련 직무 간의 협업이 매우 중요하며, 이를 위해 각 직무에 대한 이해도가 높을수록 더 나은 결과를 도출할 수 있다고 생각합니다. 예를 들어, 데이터 엔지니어가 분석가의 요구를 잘 이해하고, 분석가는 데이터 엔지니어링 과정에 대한 기본적인 이해가 있다면 데이터 파이프라인의 효율성이 크게 향상될 수 있습니다. 따라서 특정 직무에 속해 있다 하더라도 다른 직무에 대한 기초적인 이해를 가지는 것이 중요합니다.

데이터 분석과 소프트웨어 엔지니어링

소프트웨어 엔지니어, 특히 풀스택 개발자가 데이터 분석에서 중요한 역할을 하는 이유는 데이터 분석가들이 주로 사용하는 도구(Tableau, Microsoft Power BI 등)가 웹 애플리케이션과 유사한 데이터 처리 및 시각화 기능을 제공하기 때문입니다. 확장성 있는 데이터 처리를 위해서는 웹 애플리케이션 개발 능력이 필요하며, 이러한 역량은 데이터 분석가가 데이터에서 더 나은 인사이트를 도출하고, 그 결과를 이해하기 쉽게 표현하는 데 기여할 수 있습니다.

데이터 분석가의 역할과 도구의 한계

데이터 분석가의 역할을 살펴보면, 다른 데이터 관련 직무와는 다소 다른 방향성을 가지고 있다는 점을 알 수 있습니다. 데이터 분석가는 도메인 지식을 바탕으로 도구의 도움을 받아 비교적 적은 코딩으로도 데이터를 분석할 수 있습니다. 하지만 이러한 노코딩 접근법은 적용할 수 있는 범위에 한계가 있을 수 있습니다. 복잡한 분석이나 모델링 작업이 필요한 경우, 더 깊은 기술적 역량과 코딩 스킬이 요구될 수 있습니다.

데이터 관련 직무의 연봉 차이

미국 내 연봉을 확인할 수 있는 여러 사이트에 따르면, 데이터 분석가의 연봉이 상대적으로 낮은 경향이 있습니다. 이는 데이터 분석가의 작업이 도메인 지식과 데이터 시각화 도구에 의존하는 경우가 많고, 다른 데이터 관련 직무와 비교하여 기술적 깊이와 복잡성이 덜 요구되기 때문일 수 있습니다. 그러나 각 직무의 연봉은 회사의 요구사항, 직무의 중요도, 개별적인 능력에 따라 크게 달라질 수 있습니다.



결론

모든 데이터 관련 직무(데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어, MLops 엔지니어/ML 엔지니어)를 전문가 수준으로 한 사람이 익히는 것은 현실적으로 매우 어렵습니다. 각 직무는 고유한 전문 지식과 기술, 도구를 요구하며, 이를 마스터하는 데 상당한 시간과 노력이 필요합니다. 또한, 각 직무는 지속적인 학습과 경험이 요구되는 빠르게 변화하는 분야입니다. 따라서 한 사람이 모든 직무를 깊이 있게 익히고 유지하기에는 한계가 있습니다.

 

데이터 분석 팀이 효과적으로 역할을 수행하기 위해서는 각 직무에 대한 전문성을 가진 사람이 최소 한 명씩 포함되어 있어야 합니다. 이는 팀 내에서 다양한 문제를 효율적으로 해결하고, 데이터 기반의 의사결정을 신속하고 정확하게 내릴 수 있도록 합니다. 다양한 전문성을 가진 팀 구성은 복잡한 데이터 분석 과정에서 협업을 촉진하고, 데이터로부터 의미 있는 인사이트를 도출하여 비즈니스 가치를 창출하는 데 필수적입니다.

 

결론적으로, 각 직무의 전문성을 깊이 있게 익히는 것은 개별 전문가에게 맡기고, 팀 내에서 서로의 전문성을 이해하고 협력하는 것이 데이터 분석 팀의 성공에 가장 중요한 요소입니다.

 

 

 

 

반응형
반응형

여러 사람이 동시에 편집해서 사용할 수 있는 구글 스프레드시트에 데이터 베이스를 연동하면 접근성이 좋아짐.

 

단점은 스프레드시트의 appscript에서 각 함수가 실행 되는 시간을 max 30분으로 지정했는데

 

데이터의 양이 많아지면 time out으로 강제 종료 될 수 있음.

 

var connectionName = 'database_address:3306'; // 접속할 MySQL 서버의 IP와 Port(Default:3306)
var user = 'userID'; // MySQL 유저 ID
var userPwd = 'password'; // MySQL 유저 PW
var db = 'db_name'; // 접속할 MySQL DB명
var instanceUrl = 'jdbc:mysql://' + connectionName;
var dbUrl = instanceUrl + '/' + db + '?characterEncoding=UTF-8';

function exportDatabase() {
  query="select * from table"
  var start = new Date();
  var conn = Jdbc.getConnection(dbUrl, user, userPwd); // DB 연결
  var stmt = conn.createStatement();
  stmt.setMaxRows(5000);
  var results = stmt.executeQuery(query); // 쿼리
  var metaData = results.getMetaData()
  var numCols = metaData.getColumnCount();
  var sheetname = SpreadsheetApp.getActive();
  var sheet = sheetname.getSheetByName('sheet1');
  sheet.clearContents();

  var arr = [];
  for (var col = 0; col < numCols; col++) {
    arr.push(metaData.getColumnName(col + 1));
  }
  sheet.appendRow(arr); #write header

  while (results.next()) {
    arr=[];
    for (var col = 0; col < numCols; col++) {
    arr.push(results.getString(col + 1));
    } 
    sheet.appendRow(arr); #write data line by line
  }

  var end = new Date();
  Logger.log("Time spend : "+((end - start)/(1000*60) % 60).toFixed(3)+" min");
  //sheet.autoResizeColumns(1, numCols+1);

  results.close();
  stmt.close();
}

 

반응형
반응형

Kaggle이란 데이터 과학자와 머신 러닝 사용자의 스킬과 정보 공유를 위해 만들어진 커뮤니티이다.

 

 

주기적으로 열리는 Competetion을 통해 상금과 명성을 얻을 수도 있고 

Courses 에서 학습을 할 수도 있다.

상당히 공신력 있는 커뮤니티라서 입상 실적은 ML/AL 경력으로 인정해주는 회사도 있다.

Kaggle korea 페이스북 커뮤니티도 있으니 참고하면 좋을 듯 하다.

https://www.facebook.com/groups/KaggleKoreaOpenGroup/

반응형
반응형

F-measure




F-measure란 classifier가 얼마나 정확하게 분류를 하는가를 판단하는 척도 중에 하나이다.

F-measure의 계산을 위해서는 precision과 recall을 구해야 한다.

precision (정확도)

- precision은 positive predictive value (PPV) 라고도 불리며 true positive / total positive 를 의미한다. 즉 양성이라고 판단한 전체 중에 진짜 양성의 비율이다.
- 즉 양성이라고 판단을 했다면 그 판단이 얼마나 정확한 지를 수치화하는 지표이다.

recall (재현율)

- recall은 sensitivity와 동일한 의미를 가진다. ture positive / real positive로 진짜 양성 중에 양성이라고 올바르게 판단내린 비율을 말한다.
- 재현율은 얼마나 대상을 빠트리지 않고 잡아내는지를 나타낸다. 다시 말해서 전체 데이터(대충 1000개라고 치자)에서 찾고자하는 A가 100개가 있는데 내가 정답이라고 생각한 것 300개를 골라냈는데 그 중에 A가 80개 존재했다고 하자.  내가 정답으로 골라낸 것이 몇 개인지 상관없이 재현율을 80%(80/100)라고 한다. 찾은 데이터가 진짜인지 여부는 위의 정확도에서 계산하게 될 것이기 때문이다.

결과적으로 재현율과 정확도가 모두 높다면 원하는 정답을 100% 찾을 수 있겠지만 
재현율만 높다면 정답이라고 생각되는 부분을 많이 찾겠지만 대부분이 오답일 것이고, 
정확도만 높다면 정답를 찾았다고 하는 개수가 몇 개 안되겠지만 적어도 그 부분들에 한해서는 대부분이 정답일 것이다.

헷갈리는 부분이 있다면 아래 포스팅을 참고하자.


2018/07/11 - [bioinformatics] - 민감도와 특이도



두 값을 모두 구했다면 F값을 계산하면 된다.


F = 2 * ( precision * recall / precision + recall ) 


위의 값대로 계산하면 precision과 recall의 조화평균을 구할 수 있다.


precision과 recall등은 파라미터 등에 의해 조절될 수 있기 때문에 ROC 커브를 그려서 프로그램의 전반적인 성능을 테스트 할 수도 있다. 


이 부분에 대해서는 추후에 다루도록 하겠다.


source -

https://en.wikipedia.org/wiki/F1_score

https://en.wikipedia.org/wiki/Precision_and_recall

반응형

'Data Science > statistics' 카테고리의 다른 글

Multiple Comparsion Problem  (1) 2018.07.11
민감도와 특이도  (0) 2018.07.11
반응형

Multiple Comparison Problem




다중비교문제는 대량의 데이터를 통계적으로 유의미한지를 분석하고 싶을 때 쓰인다.

특히나 임상문제를 다룰 때, 특정 약물 A를 처방했을 때 효과가 있는지 없는지를 알고싶다면 약물 처방한 a그룹과 대조군 b그룹 두 집단 사이의 변화가 일어나는 정도를 보고 무위가설을 세운 후 기각당하는지 여부를 가지고서 약물 A가 실제로 효과가 있는지 없는지 여부를 판단하게 될 것이다. 

하지만 비교 집단의 수가 늘어난다면 (예를 들어 약물 농도의 변화나 시간의 변화에 따른 비교 등) 모든 집단간의 비교 결과가 필요하게 되는 것이다. (a와 b집단간의 p-value가 0.05보다 낮다고 해도 b와 c, a와 c집단간의 p-value도 모두 고려해야 유의미한지 여부를 말할 수 있기 때문이다.)


여기에서 적용할 수 있는 p-value가 크게 두 종류가 있는데 Familywise error rateFalse discover rate이다.


Familywise error rate

- 1형 오류를 보정할 수 있는 방법이다. 여러가지 방법이 있지만 가장 많이 쓰이는 방법은 Bonferroni procedure이다. p-value의 임계점을 0.05로 두었을 때 실험이 N번 반복된다면 모든 p-value는 0.05/N 의 값을 가질 때 significant한다고 말할 수 있다. 만약 실험이 10번 반복되어야 한다면 p-value cutoff는 0.005를 가져야 한다.
매우 엄격한 방법이지만 계산이 간단하기 때문에 많이 사용된다.


False discover rate 

- False discovery rate(FDR)는 다중 비교에서 무위가설에서의 1형 오류처럼 적용할 수 있는 검정방법으로 false positive에 total positive를 나눈 비율을 의미한다. Bonferroni correction과 마찬가지로 GWAS분석에 많이 활용되고 있는 통계방법이며 훨씬 덜 엄격한 방법을 채택하고 있다. Benjamini와 Hochberg가 개발하였기 때문에 Benjamini-Hochberg procedure라고도 불린다.


False Discovery Rate = False positive / total positive


- p-value값을 가장 큰 것부터 가장 작은 것 순서로 나열하고 유의 수준 α=0.05k/N 공식을 이용하여 순차적으로 검정한다. 이 분석 방법은 순차적으로 p-value의 값을 줄여감으로써 통계적 파워가 적게 감소하게 되는 장점을 가진다. 



Familywise error rate vs False discover rate

- Benjamini-Hochberg 방법을 Bonferroni correction과 비교해 보면 Bonferroni correction은 검사 개수(N)가 증가할수록 p-value cutoff가 급격히 감소하여 많은 true positive라 하더라도 p-value에서 필터링 되어 결과가 유의하지 않게 나타날 수 있다. 그러나 FDR 방법은 검사 개수(N)가 증가하더라도 Bonferroni correction보다 p-value의 감소가 완만하여 true positive가 제거되는 비율이 낮아지는 장점을 가지고 있다.

- High-throughput techonology가 발달함에 따라 대량의 데이터들이 생산되기 시작했고 이러한 N의 증가를 보정해주기위하여 FDR방법이 많이 쓰이기 시작했다.

- familywise error rate는 비교 그룹 사이에서 어떤 변수들이 동일하게 분포되어 있다고 가정할 때 특정하게 다른 부분을 찾아낸 p-value가 5% 미만일때 신뢰할만하다는 뜻이다.

- False discover rate는 100개의 테스트가 양성으로 나왔을 때 5%의 FDR값을 가진다면 평균적으로 5개의 test는 false positive라는 뜻이다.


conclusion

- 대량의 N 비교를 하지 않을때는 두 방식의 결과는 비슷하다. 하지만 N이 많아지면 Bonferroni는 false negative, 즉 놓치는 부분이 생겨날 것이다. 하지만 Benjamini-Hochberg는 false positive로 잘못된 결과를 보여 줄 것이다.


- 다중비교의 최종 목적은 false positive를 줄이는 것이다. false positive가 포함되어 있는 결과는 해석이 정확하지 않을 수 있기 때문이다. 하지만 반대로 다중 비교의 엄격한 기준 때문에 false negative가 생긴다면 그것도 문제일 것이다. 예를 들어 P-value는 0.013이지만 다중비교의 p-value 계산에서는 signifcant하지 않게 나올 수 있다. p-value를 계산할 때는 분석 방향에 따라 이러한 결과들을 신중하게 다룰 필요가 있다. 그렇지 않으면 중요한 발견을 놓칠 수도 있다. 


두 비교 방법은 같은 비교를 할 때 쓰이는 방법이 아니기 때문에 어디에 초점을 주었느냐에 따라 어떤 방식을 쓸 지 결정해야 한다.



Reference -

http://www.biostathandbook.com/multiplecomparisons.html

https://en.wikipedia.org/wiki/False_discovery_rate

https://en.wikipedia.org/wiki/Family-wise_error_rate#Controlling_procedures

반응형

'Data Science > statistics' 카테고리의 다른 글

F-measure  (1) 2018.07.20
민감도와 특이도  (0) 2018.07.11
반응형

민감도와 특이도



민감도와 특이도는 분류 능력이 어느 정도 되는지 성능을 측정할 때 쓰이는 단위다. 
이미 답을 알고 있는 상황에서 어떤 방법으로 접근했을 때 정답을 얼마나 잘 찾아내는지를 수치화할 수 있으며 여러 방법의 민감도와 특이도를 측정하여 더 우수한지 비교에 사용된다.

민감도와 특이도를 구분하기 위해서는 우선 아래의 테이블을 해석할 수 있어야 한다.


참 거짓을 분류해 내야하는 이분법적인 분류에서, 

해당 문제의 진짜 참, 거짓 여부는 True condition이 되며 (이 부분에서 정답을 알고 있어야 한다)

어떤 방법이 분류한 참, 거짓이 Predicted condition이 된다. 


즉 진짜 정답과 어떤 방법이 도출해낸 답이 나오게 되는데 이를 true, false와 positive, negative로 분리해서 표현한다. 


예를 들어 환자가 진찰을 받으러 왔다고 가정하자. 여기서 의사 또는 컴퓨터가 환자를 진찰한 뒤 암에 걸렸는지 걸리지 않았는지를 판단할 것이다. 그리고 진단 결과와는 별도로 환자는 진짜 암에 걸렸을 수도 안 걸렸을 수도 있다. 


이를 4단계로 분류할 수 있다.


1. 정말로 암에 걸린 환자를 진단결과 암 환자라고 판단 내렸다. (true positive)

2. 암에 걸리지 않은 환자를 진단결과 암 환자라고 판단 내렸다. (false positive)

3. 정말로 암에 걸린 환자를 진단결과 암 환자가 아니라고 판단 내렸다. (false negative)

4. 암에 걸리지 않은 환자를 진단결과 암 환자가 아니라고 판단 내렸다. (true negative)


쉽게 이해하는 법은 진단결과에 따라 병에 걸렸으면 positive와 걸리지 않았으면 negative로 구분하고 그 진단결과가 실제와 일치하면 true 일치하지 않으면 false를 앞에 붙이면 된다.


당연하게도 위의 분류방법을 적용하려면 환자가 진짜 암에 걸렸는지를 알고 있어야 한다. 이를 golden standard set이라고 표현하며 믿을만한 정답이 있어야지만 위의 테이블을 적용할 수 있다.




위의 4단계로는 단순히 case의 숫자가 다를 때는 성능을 비교하기 어렵다. 따라서 얼마나 true와 false를 잘 구분하는지를 나타내는 지표로 민감도(sensitivity)와 특이도(specificity)를 사용한다. (FNR과 FPR은 특정 상황에서만 사용된다)
 

민감도 (Sensitivity)

- 민감도는 (true positive / real positive)로서 진짜 환자 중에 진단 결과 환자라고 나온 사람의 비율을 말한다. 즉 100명의 사람 중에 50명이 진짜 질병에 걸린 환자인데 그중에 40명만이 환자라고 진단 내렸다면 40/50으로 80이 된다.

특이도 (Specificity)

- 특이도는 (true negative / real negative)로서 진짜 환자가 아닌 사람 중에 진단 결과 환자가 아니라고 나온 사람의 비율을 말한다. 즉 100명의 사람중에 50명이 질병에 걸리지 않았는데 그중에 10명이 질병에 걸리지 않았다는 결과를 받았다면 10/50으로 20이 된다.


잘 만든 분류 방법이라면 민감도와 특이도가 모두 높겠지만 조금이라도 헷갈리는 부분을 모두 positive로 분류하는 방법이 있다면 민감도는 높을지라도 특이도가 매우 낮아지게 된다. 즉 두 수치 모두 중요하다.


임상 치료에서는 Sensitivity가 높은 방법에 더 중점을 둔다. 정상인을 환자라고 판단하고 (false positive) 치료에 들어간다고 해서 당장 문제가 생기는 건 아니지만 (특이도가 낮으면 생길 수 있는 현상) 환자를 정상인이라고 판단하면 (false negative) (민감도가 낮으면 생길 수 있는 상황) 치료를 해야 하는 시기를 놓칠 수 있고 치명적일 수 있기 때문이다. 그래서 환자를 환자라고 진단하는 것이 더 중요하다.

Reference -

https://en.wikipedia.org/wiki/Sensitivity_and_specificity


반응형

'Data Science > statistics' 카테고리의 다른 글

F-measure  (1) 2018.07.20
Multiple Comparsion Problem  (1) 2018.07.11

+ Recent posts