반응형
이상치(Outlier)
아웃라이어란 데이터 상의 다른 값들의 분포와 비교했을때 비정상적으로 떨어져있는 관측치를 말한다.
이상치 찾는 간단한 방법
1. 사분위수
2. 정규분포
3. 도메인(이건 간단한건 아님)
4. 시각화
시각화를 이용한 방법
boxplot, scatterplot을 사용해 시각화를 하고, 나온 그림 상 이상한 부분을 눈으로 찾는 방법을 말한다.
보통 시각화단계에서 나타난 이상치들은 정규분포, 사분위수 관련 공식으로도 찾아지기는 한다.
# boxplot(단변수), sactterplot(이변수)
정규분포를 이용한 방법
mean +- 3std
정규분포 공식을 이용한 것으로 양 끝쪽 부분인 2.5%, 97.5% 외를 이상치로 판별하는 방법을 말한다.
사분위수를 이용한 방법
3Q or 1Q +- 1.5*IQR (IQR : 3Q-1Q)
정규분포를 이용한 공식과 마찬가지로 양 끝쪽 부분을 이상치로 판별하는 방법이다.
보통 이상치가 다수 섞여있으면 평균이나 특히 분산이 커지는데, 사분위수를 사용하면 이런 문제에 로버스트하게 접근할 수 있다는 장점이 존재한다.
도메인을 이용한 방법
도메인 지식을 활용하여 있으면 안 되는 데이터를 찾아낸다.
ex) 사람 키 데이터에서 300cm가 넘는 데이터가 존재한다면 이상치로 판별한다.
아웃라이어 제거
1. 제거 : 가장 간단한 방법
2. 정규화
3. 스케일링(log, sqrt) : 왜도에 따라서 쓰임
4. 대치 : 범주로 묶는 비닝(binning), 모델링을 사용한 대치 등이 사용된다. 일반적인 mean 등도 사용
반응형