반응형
선형판별분석(Linear Discriminant Analysis, LDA)
잘 쓰이는 방법은 아니다.
판별분석에는 보통 예측변수가 정규분포를 따른다는 가정이 있지만,
실제로는 정규분포가 아니더라도, 연속형이 아닌 바이너리라도 어느정도 잘 동작한다고 한다.
이론
두 개의 연속형 변수를 가지고 종속변수를 예측한다고 할 때,
LDA는 클래스 간 분산 / 클래스 내부 분산의 비율을 최대화하는 것을 목표로 한다.
이 비율을 최대화하는 Wx*X + Wz*Z를 찾는다.
원리를 조금 더 설명하면,
클래스 간 분산(사이 제곱합)이 커진다면 두 개의 클래스 간의 간격이 커진다는 뜻으로 보면 되고,
클래스 내부 분산(내부 제곱합)이 작아진다면 한 클래스에서 값들이 뭉쳐있다는 뜻으로 보면 된다.
사이 제곱합을 최대로, 내부 제곱합을 최소로 가져감으로써 두 집단을 최대한 잘 분류하게끔 만드는 기법이다.
실습
TBD
반응형