반응형

F-measure




F-measure란 classifier가 얼마나 정확하게 분류를 하는가를 판단하는 척도 중에 하나이다.

F-measure의 계산을 위해서는 precision과 recall을 구해야 한다.

precision (정확도)

- precision은 positive predictive value (PPV) 라고도 불리며 true positive / total positive 를 의미한다. 즉 양성이라고 판단한 전체 중에 진짜 양성의 비율이다.
- 즉 양성이라고 판단을 했다면 그 판단이 얼마나 정확한 지를 수치화하는 지표이다.

recall (재현율)

- recall은 sensitivity와 동일한 의미를 가진다. ture positive / real positive로 진짜 양성 중에 양성이라고 올바르게 판단내린 비율을 말한다.
- 재현율은 얼마나 대상을 빠트리지 않고 잡아내는지를 나타낸다. 다시 말해서 전체 데이터(대충 1000개라고 치자)에서 찾고자하는 A가 100개가 있는데 내가 정답이라고 생각한 것 300개를 골라냈는데 그 중에 A가 80개 존재했다고 하자.  내가 정답으로 골라낸 것이 몇 개인지 상관없이 재현율을 80%(80/100)라고 한다. 찾은 데이터가 진짜인지 여부는 위의 정확도에서 계산하게 될 것이기 때문이다.

결과적으로 재현율과 정확도가 모두 높다면 원하는 정답을 100% 찾을 수 있겠지만 
재현율만 높다면 정답이라고 생각되는 부분을 많이 찾겠지만 대부분이 오답일 것이고, 
정확도만 높다면 정답를 찾았다고 하는 개수가 몇 개 안되겠지만 적어도 그 부분들에 한해서는 대부분이 정답일 것이다.

헷갈리는 부분이 있다면 아래 포스팅을 참고하자.


2018/07/11 - [bioinformatics] - 민감도와 특이도



두 값을 모두 구했다면 F값을 계산하면 된다.


F = 2 * ( precision * recall / precision + recall ) 


위의 값대로 계산하면 precision과 recall의 조화평균을 구할 수 있다.


precision과 recall등은 파라미터 등에 의해 조절될 수 있기 때문에 ROC 커브를 그려서 프로그램의 전반적인 성능을 테스트 할 수도 있다. 


이 부분에 대해서는 추후에 다루도록 하겠다.


source -

https://en.wikipedia.org/wiki/F1_score

https://en.wikipedia.org/wiki/Precision_and_recall

반응형

'Data Science > statistics' 카테고리의 다른 글

Multiple Comparsion Problem  (1) 2018.07.11
민감도와 특이도  (0) 2018.07.11

+ Recent posts