반응형
로지스틱회귀(Logistic Regression)
간단하게 설명하면
회귀분석을 연속형이 아닌 범주형 변수를 예측하기 위해 사용하는 방법이다.
이론
다중회귀분석은 Y = B0 + B1X1 + ... + BnXn으로 표현된다.
여기서 목표하고자 하는 종속변수가 1일 때의 조건부 확률을 종속변수로 두면
P(Y=1|X) = B0 + B1X1 + ... + BnXn
으로 표현할 수 있다.
여기서 좌측의 조건부 확률은 범위가 0~1, 우측의 회귀식은 -inf ~ inf로
두 식을 같게 하기 위해 좌측을 변경해주어야 한다.
오즈비(Odds ratio)는 한 확률에 대해서
P / 1-P로 표현한 식인데 여기다 로그를 씌우면 로짓함수가 된다.
시그모이드 함수(로짓함수)는
ln(P / 1-P)로 이를 종속변수로 두면 좌,우변의 범위가 같아진다.
log (P(Y=1|X) / 1 - P(Y=1|X)) = B0 + B1X1 + ... + BnXn
P(Y=1|X) = p , B0 + B1X1 + ... + BnXn = a로 간단히 치환해서 이 식을 정리하면
log(p /(1-p)) = a
p(x) - (1 - p(x)) = e^(a)
p(x) = e^(a)(1-p(x))
p(x) = e^(a)- e^(a)p(x)
p(x)(1+e^(a)) = e^(a)
p(x) = e(a) / (1+e^(a))
p(x) = 1 / (1 + e^(-a)) 가 된다. 다시 치환을 풀면
P(Y=1|X) = 1/(1 + e^(B0 + B1X1 + ... + BnXn))
좌,우변 모두 범위가 0~1로 변환된 식이 된다.
실습
TBD
반응형