선형판별분석(Linear Discriminant Analysis, LDA) 잘 쓰이는 방법은 아니다. 판별분석에는 보통 예측변수가 정규분포를 따른다는 가정이 있지만, 실제로는 정규분포가 아니더라도, 연속형이 아닌 바이너리라도 어느정도 잘 동작한다고 한다. 이론 두 개의 연속형 변수를 가지고 종속변수를 예측한다고 할 때, LDA는 클래스 간 분산 / 클래스 내부 분산의 비율을 최대화하는 것을 목표로 한다. 이 비율을 최대화하는 Wx*X + Wz*Z를 찾는다. 원리를 조금 더 설명하면, 클래스 간 분산(사이 제곱합)이 커진다면 두 개의 클래스 간의 간격이 커진다는 뜻으로 보면 되고, 클래스 내부 분산(내부 제곱합)이 작아진다면 한 클래스에서 값들이 뭉쳐있다는 뜻으로 보면 된다. 사이 제곱합을 최대로, 내부 ..
나이브 베이즈(Naive Bayes) 조건부 확률을 사용하는 분류 모델 파라미터 추정은 최대우도추정법(MLE)을 사용한다. 장점1. 적은 수의 데이터로도 훈련 가능하다.2. 간단하지만 꽤 높은 성능을 보인다. 이론나이브 베이즈의 나이브(Naive) 뜻은 크게 생각하지 않고 작성했다로, 별 고려 없이 무언가를 했다로 보면 비슷하다. 보통 일을 할 때 나이브하게 ~를 했다라고 하는 그 나이브와 같다.그럼 왜 나이브 베이즈에 Naive가 있을까?그 이유는 나이브 베이즈는 모든 변수가 서로 독립이라는 가정을 하기 때문이다.(실제로 독립이 아니더라도)나이브 베이즈에 Bayes가 들어가는 이유는 베이즈 정리를 기초로 하기 때문이다.* P(A|B) = P(AUB)/P(B) = P(B|A)P(A)/P(B) 데이터에는 ..