전체보기

이론/ML 기초

로지스틱회귀(Logistic Regression)

로지스틱회귀(Logistic Regression) 간단하게 설명하면 회귀분석을 연속형이 아닌 범주형 변수를 예측하기 위해 사용하는 방법이다. 이론 다중회귀분석은 Y = B0 + B1X1 + ... + BnXn으로 표현된다. 여기서 목표하고자 하는 종속변수가 1일 때의 조건부 확률을 종속변수로 두면 P(Y=1|X) = B0 + B1X1 + ... + BnXn 으로 표현할 수 있다. 여기서 좌측의 조건부 확률은 범위가 0~1, 우측의 회귀식은 -inf ~ inf로 두 식을 같게 하기 위해 좌측을 변경해주어야 한다. 오즈비(Odds ratio)는 한 확률에 대해서 P / 1-P로 표현한 식인데 여기다 로그를 씌우면 로짓함수가 된다. 시그모이드 함수(로짓함수)는 ln(P / 1-P)로 이를 종속변수로 두면 좌,..

이론/ML 기초

선형판별분석(LDA)

선형판별분석(Linear Discriminant Analysis, LDA) 잘 쓰이는 방법은 아니다. 판별분석에는 보통 예측변수가 정규분포를 따른다는 가정이 있지만, 실제로는 정규분포가 아니더라도, 연속형이 아닌 바이너리라도 어느정도 잘 동작한다고 한다. 이론 두 개의 연속형 변수를 가지고 종속변수를 예측한다고 할 때, LDA는 클래스 간 분산 / 클래스 내부 분산의 비율을 최대화하는 것을 목표로 한다. 이 비율을 최대화하는 Wx*X + Wz*Z를 찾는다. 원리를 조금 더 설명하면, 클래스 간 분산(사이 제곱합)이 커진다면 두 개의 클래스 간의 간격이 커진다는 뜻으로 보면 되고, 클래스 내부 분산(내부 제곱합)이 작아진다면 한 클래스에서 값들이 뭉쳐있다는 뜻으로 보면 된다. 사이 제곱합을 최대로, 내부 ..

이론/ML 기초

나이브 베이즈(Naive Bayes)

나이브 베이즈(Naive Bayes) 조건부 확률을 사용하는 분류 모델 파라미터 추정은 최대우도추정법(MLE)을 사용한다. 장점1. 적은 수의 데이터로도 훈련 가능하다.2. 간단하지만 꽤 높은 성능을 보인다. 이론나이브 베이즈의 나이브(Naive) 뜻은 크게 생각하지 않고 작성했다로, 별 고려 없이 무언가를 했다로 보면 비슷하다. 보통 일을 할 때 나이브하게 ~를 했다라고 하는 그 나이브와 같다.그럼 왜 나이브 베이즈에 Naive가 있을까?그 이유는 나이브 베이즈는 모든 변수가 서로 독립이라는 가정을 하기 때문이다.(실제로 독립이 아니더라도)나이브 베이즈에 Bayes가 들어가는 이유는 베이즈 정리를 기초로 하기 때문이다.* P(A|B) = P(AUB)/P(B) = P(B|A)P(A)/P(B) 데이터에는 ..

카테고리 없음

카카오 컨퍼런스 IF 2020 FDS 관련 후기

FDS 관련 세션들의 후기 카카오페이, 카카오게임즈 # 카카오페이 FDS란 평소와 다른 금융 패턴을 감지하는 시스템(이상거래 탐지) 기본 구조 송금, 결제 등 액션 HTTP FDS * 실시간 처리 FDS는 형태정보 등 DB와 연동하여 실시간으로 이상거래 탐지 하지만 이상거래를 적극적이고 실시간으로 확인하는데 어려움을 겪어 카카오는 RMS(Risk management system : 잠재적인 위험 관리 시스템)를 개발함 RMS 개발 요구조건 1. 서비스와 최소한의 디펜던시 2. 룰 + 모델을 활용한 실시간 모니터링 3. 모든 지표를 파악할 수 있는 대시보드 필요 이걸 활용하기 위해 Kafka / Akka를 활용한 Event driven 아키텍쳐를 활용. RMS 아키텍쳐의 구성 Kafka Wormhole /..

새우까앙
'분류 전체보기' 카테고리의 글 목록 (7 Page)