Multiple Comparison Problem
다중비교문제는 대량의 데이터를 통계적으로 유의미한지를 분석하고 싶을 때 쓰인다.
특히나 임상문제를 다룰 때, 특정 약물 A를 처방했을 때 효과가 있는지 없는지를 알고싶다면 약물 처방한 a그룹과 대조군 b그룹 두 집단 사이의 변화가 일어나는 정도를 보고 무위가설을 세운 후 기각당하는지 여부를 가지고서 약물 A가 실제로 효과가 있는지 없는지 여부를 판단하게 될 것이다.
하지만 비교 집단의 수가 늘어난다면 (예를 들어 약물 농도의 변화나 시간의 변화에 따른 비교 등) 모든 집단간의 비교 결과가 필요하게 되는 것이다. (a와 b집단간의 p-value가 0.05보다 낮다고 해도 b와 c, a와 c집단간의 p-value도 모두 고려해야 유의미한지 여부를 말할 수 있기 때문이다.)
여기에서 적용할 수 있는 p-value가 크게 두 종류가 있는데 Familywise error rate와 False discover rate이다.
Familywise error rate
- 1형 오류를 보정할 수 있는 방법이다. 여러가지 방법이 있지만 가장 많이 쓰이는 방법은 Bonferroni procedure이다. p-value의 임계점을 0.05로 두었을 때 실험이 N번 반복된다면 모든 p-value는 0.05/N 의 값을 가질 때 significant한다고 말할 수 있다. 만약 실험이 10번 반복되어야 한다면 p-value cutoff는 0.005를 가져야 한다.
매우 엄격한 방법이지만 계산이 간단하기 때문에 많이 사용된다.
False discover rate
- False discovery rate(FDR)는 다중 비교에서 무위가설에서의 1형 오류처럼 적용할 수 있는 검정방법으로 false positive에 total positive를 나눈 비율을 의미한다. Bonferroni correction과 마찬가지로 GWAS분석에 많이 활용되고 있는 통계방법이며 훨씬 덜 엄격한 방법을 채택하고 있다. Benjamini와 Hochberg가 개발하였기 때문에 Benjamini-Hochberg procedure라고도 불린다.
False Discovery Rate = False positive / total positive
- p-value값을 가장 큰 것부터 가장 작은 것 순서로 나열하고 유의 수준 α=0.05k/N 공식을 이용하여 순차적으로 검정한다. 이 분석 방법은 순차적으로 p-value의 값을 줄여감으로써 통계적 파워가 적게 감소하게 되는 장점을 가진다.
Familywise error rate vs False discover rate
- Benjamini-Hochberg 방법을 Bonferroni correction과 비교해 보면 Bonferroni correction은 검사 개수(N)가 증가할수록 p-value cutoff가 급격히 감소하여 많은 true positive라 하더라도 p-value에서 필터링 되어 결과가 유의하지 않게 나타날 수 있다. 그러나 FDR 방법은 검사 개수(N)가 증가하더라도 Bonferroni correction보다 p-value의 감소가 완만하여 true positive가 제거되는 비율이 낮아지는 장점을 가지고 있다.
- High-throughput techonology가 발달함에 따라 대량의 데이터들이 생산되기 시작했고 이러한 N의 증가를 보정해주기위하여 FDR방법이 많이 쓰이기 시작했다.
- familywise error rate는 비교 그룹 사이에서 어떤 변수들이 동일하게 분포되어 있다고 가정할 때 특정하게 다른 부분을 찾아낸 p-value가 5% 미만일때 신뢰할만하다는 뜻이다.
- False discover rate는 100개의 테스트가 양성으로 나왔을 때 5%의 FDR값을 가진다면 평균적으로 5개의 test는 false positive라는 뜻이다.
conclusion
- 대량의 N 비교를 하지 않을때는 두 방식의 결과는 비슷하다. 하지만 N이 많아지면 Bonferroni는 false negative, 즉 놓치는 부분이 생겨날 것이다. 하지만 Benjamini-Hochberg는 false positive로 잘못된 결과를 보여 줄 것이다.
- 다중비교의 최종 목적은 false positive를 줄이는 것이다. false positive가 포함되어 있는 결과는 해석이 정확하지 않을 수 있기 때문이다. 하지만 반대로 다중 비교의 엄격한 기준 때문에 false negative가 생긴다면 그것도 문제일 것이다. 예를 들어 P-value는 0.013이지만 다중비교의 p-value 계산에서는 signifcant하지 않게 나올 수 있다. p-value를 계산할 때는 분석 방향에 따라 이러한 결과들을 신중하게 다룰 필요가 있다. 그렇지 않으면 중요한 발견을 놓칠 수도 있다.
- 두 비교 방법은 같은 비교를 할 때 쓰이는 방법이 아니기 때문에 어디에 초점을 주었느냐에 따라 어떤 방식을 쓸 지 결정해야 한다.
Reference -
http://www.biostathandbook.com/multiplecomparisons.html
https://en.wikipedia.org/wiki/False_discovery_rate
https://en.wikipedia.org/wiki/Family-wise_error_rate#Controlling_procedures