반응형
분류 모델 평가지표
분류모델에서 사용하는 평가지표들을 정리해보고자 한다.
보통 어떤 평가지표를 사용할 지는 고객이 있는 경우에는 사이트에 따라 고객이 원하는 것이 무엇인지, 아니면 주제의 특성에 따라 정해지게 된다.
예를 들어 현재 진행중인 FDS 프로젝트에서는 Precision을 중요하게 보는 것 처럼 각각의 주제에 맞춰 알맞은 지표를 사용해야 한다.
용어
혼동행렬
분류에서 사용하는 테이블로
간단하게 유형별 예측, 오류의 수를 보여주는 행렬
yhat = 1 | yhat = 0 | |
y = 1 | True Positive(TP) | False Negative(FN) |
y = 0 | False Positive(FP) | True Negative(TN) |
참고 : yhat = y라고 예측한 값
정확도(Accuracy) : (TP + TN) / 총
Recall(재현율 : Sensitivity 민감도로도 불림) : TP / (TP + FN) * TP + FN은 그냥 Y가 1인 갯수
Specificity(특이도) : FP / (FP + TN) * TP + FN은 그냥 Y가 0인 갯수
Precision(정밀도) : TP / (TP + FP) * TP + FP는 Y를 1로 예측한 갯수
ROC curve
재현률, 특이도를 표시한 그림
Y축을 Recall(재현률), X축을 Specificity(특이도)로 표시한다.
AUC
ROC curve의 곡선 아래 면적, 높을 수록 좋은 분류기라고 볼 수 있다.
참고로 최소치는 0.5다.
Lift
모델이 다른 Cut-Off에 대해 1을 얼마나 더 효과적으로 구분하는 지 나타내는 지표이다.
리프트 곡선을 활용하여 컷오프에 따른 결과의 변화를 확인할 수 있고 이를 통해 최적의 컷오프를 지정할 수 있다.
반응형