반응형
F-measure
F-measure란 classifier가 얼마나 정확하게 분류를 하는가를 판단하는 척도 중에 하나이다.
F-measure의 계산을 위해서는 precision과 recall을 구해야 한다.
precision (정확도)
- precision은 positive predictive value (PPV) 라고도 불리며 true positive / total positive 를 의미한다. 즉 양성이라고 판단한 전체 중에 진짜 양성의 비율이다.
- 즉 양성이라고 판단을 했다면 그 판단이 얼마나 정확한 지를 수치화하는 지표이다.
recall (재현율)
- recall은 sensitivity와 동일한 의미를 가진다. ture positive / real positive로 진짜 양성 중에 양성이라고 올바르게 판단내린 비율을 말한다.
- 재현율은 얼마나 대상을 빠트리지 않고 잡아내는지를 나타낸다. 다시 말해서 전체 데이터(대충 1000개라고 치자)에서 찾고자하는 A가 100개가 있는데 내가 정답이라고 생각한 것 300개를 골라냈는데 그 중에 A가 80개 존재했다고 하자. 내가 정답으로 골라낸 것이 몇 개인지 상관없이 재현율을 80%(80/100)라고 한다. 찾은 데이터가 진짜인지 여부는 위의 정확도에서 계산하게 될 것이기 때문이다.
결과적으로 재현율과 정확도가 모두 높다면 원하는 정답을 100% 찾을 수 있겠지만
재현율만 높다면 정답이라고 생각되는 부분을 많이 찾겠지만 대부분이 오답일 것이고,
정확도만 높다면 정답를 찾았다고 하는 개수가 몇 개 안되겠지만 적어도 그 부분들에 한해서는 대부분이 정답일 것이다.
헷갈리는 부분이 있다면 아래 포스팅을 참고하자.
2018/07/11 - [bioinformatics] - 민감도와 특이도
두 값을 모두 구했다면 F값을 계산하면 된다.
F = 2 * ( precision * recall / precision + recall )
위의 값대로 계산하면 precision과 recall의 조화평균을 구할 수 있다.
precision과 recall등은 파라미터 등에 의해 조절될 수 있기 때문에 ROC 커브를 그려서 프로그램의 전반적인 성능을 테스트 할 수도 있다.
이 부분에 대해서는 추후에 다루도록 하겠다.
source -
https://en.wikipedia.org/wiki/F1_score
https://en.wikipedia.org/wiki/Precision_and_recall
반응형
'Data Science > statistics' 카테고리의 다른 글
Multiple Comparsion Problem (1) | 2018.07.11 |
---|---|
민감도와 특이도 (0) | 2018.07.11 |