반응형

민감도와 특이도



민감도와 특이도는 분류 능력이 어느 정도 되는지 성능을 측정할 때 쓰이는 단위다. 
이미 답을 알고 있는 상황에서 어떤 방법으로 접근했을 때 정답을 얼마나 잘 찾아내는지를 수치화할 수 있으며 여러 방법의 민감도와 특이도를 측정하여 더 우수한지 비교에 사용된다.

민감도와 특이도를 구분하기 위해서는 우선 아래의 테이블을 해석할 수 있어야 한다.


참 거짓을 분류해 내야하는 이분법적인 분류에서, 

해당 문제의 진짜 참, 거짓 여부는 True condition이 되며 (이 부분에서 정답을 알고 있어야 한다)

어떤 방법이 분류한 참, 거짓이 Predicted condition이 된다. 


즉 진짜 정답과 어떤 방법이 도출해낸 답이 나오게 되는데 이를 true, false와 positive, negative로 분리해서 표현한다. 


예를 들어 환자가 진찰을 받으러 왔다고 가정하자. 여기서 의사 또는 컴퓨터가 환자를 진찰한 뒤 암에 걸렸는지 걸리지 않았는지를 판단할 것이다. 그리고 진단 결과와는 별도로 환자는 진짜 암에 걸렸을 수도 안 걸렸을 수도 있다. 


이를 4단계로 분류할 수 있다.


1. 정말로 암에 걸린 환자를 진단결과 암 환자라고 판단 내렸다. (true positive)

2. 암에 걸리지 않은 환자를 진단결과 암 환자라고 판단 내렸다. (false positive)

3. 정말로 암에 걸린 환자를 진단결과 암 환자가 아니라고 판단 내렸다. (false negative)

4. 암에 걸리지 않은 환자를 진단결과 암 환자가 아니라고 판단 내렸다. (true negative)


쉽게 이해하는 법은 진단결과에 따라 병에 걸렸으면 positive와 걸리지 않았으면 negative로 구분하고 그 진단결과가 실제와 일치하면 true 일치하지 않으면 false를 앞에 붙이면 된다.


당연하게도 위의 분류방법을 적용하려면 환자가 진짜 암에 걸렸는지를 알고 있어야 한다. 이를 golden standard set이라고 표현하며 믿을만한 정답이 있어야지만 위의 테이블을 적용할 수 있다.




위의 4단계로는 단순히 case의 숫자가 다를 때는 성능을 비교하기 어렵다. 따라서 얼마나 true와 false를 잘 구분하는지를 나타내는 지표로 민감도(sensitivity)와 특이도(specificity)를 사용한다. (FNR과 FPR은 특정 상황에서만 사용된다)
 

민감도 (Sensitivity)

- 민감도는 (true positive / real positive)로서 진짜 환자 중에 진단 결과 환자라고 나온 사람의 비율을 말한다. 즉 100명의 사람 중에 50명이 진짜 질병에 걸린 환자인데 그중에 40명만이 환자라고 진단 내렸다면 40/50으로 80이 된다.

특이도 (Specificity)

- 특이도는 (true negative / real negative)로서 진짜 환자가 아닌 사람 중에 진단 결과 환자가 아니라고 나온 사람의 비율을 말한다. 즉 100명의 사람중에 50명이 질병에 걸리지 않았는데 그중에 10명이 질병에 걸리지 않았다는 결과를 받았다면 10/50으로 20이 된다.


잘 만든 분류 방법이라면 민감도와 특이도가 모두 높겠지만 조금이라도 헷갈리는 부분을 모두 positive로 분류하는 방법이 있다면 민감도는 높을지라도 특이도가 매우 낮아지게 된다. 즉 두 수치 모두 중요하다.


임상 치료에서는 Sensitivity가 높은 방법에 더 중점을 둔다. 정상인을 환자라고 판단하고 (false positive) 치료에 들어간다고 해서 당장 문제가 생기는 건 아니지만 (특이도가 낮으면 생길 수 있는 현상) 환자를 정상인이라고 판단하면 (false negative) (민감도가 낮으면 생길 수 있는 상황) 치료를 해야 하는 시기를 놓칠 수 있고 치명적일 수 있기 때문이다. 그래서 환자를 환자라고 진단하는 것이 더 중요하다.

Reference -

https://en.wikipedia.org/wiki/Sensitivity_and_specificity


반응형

'Data Science > statistics' 카테고리의 다른 글

F-measure  (1) 2018.07.20
Multiple Comparsion Problem  (1) 2018.07.11

+ Recent posts