이론

이론/ML 기초

결측치 처리 방법

결측치 처리 방법 예전에 정리해 뒀던 결측치 처리 방법을 저장할 겸 올려보고자 한다. 결측 데이터의 종류 1. 완전 무작위 결측(MCAR : Missing completely at random) : 다른 변수들과 아예 상관이 없는 경우 2. 무작위 결측(MAR : Missing at random) : 결측 데이터가 다른 변수와 연관은 있지만 그 변수의 결과와는 관계 없는 경우 3. 비 무작위 결측(MNAR : Missing at not random) : 결측 데이터가 다른 변수와 연관이 있는 경우 결측치 확인, 시각화 방법 간단한 방법 df.isna().sum().plot() # 귀찮을 때 가장 많이 쓰는 방법 isna() or isnull() 도 가능하다. missingno 패키지 pandas 데이터프..

이론/ML 기초

변수 선택 기법(Feature Selection Method)

변수 선택 기법(Feature Selection Method) 모델을 돌릴 때 쓸모 없는 변수들을 제거함으로써 모델의 속도 개선, 오버피팅 방지 등의 효과를 얻기 위해 사용하는 방법. Feature Selection의 3가지 방법 1. Wrapper method : 모델링 돌리면서 변수 채택 2. Filter Method : 전처리단에서 통계기법 사용하여 변수 채택 3. Embedded method : 라쏘, 릿지, 엘라스틱넷 등 내장함수 사용하여 변수 채택 내 방식대로 정리해보고자 한다 정리 Filter Method 전처리단에서 주로 사용할 만 하며 통계기법등을 사용하여 상관관계가 높은 변수나, 성능이 높은 변수를 추출하는 방법 분산 피쳐가 종속변에 따라 그다지 변하지 않는다면 예측에도 도움이 되지 않..

이론/DL 기초

배치 정규화(Batch Normalization)

배치 정규화(Batch Normalization) 앤드류 응 교수에 따르면 배치 정규화를 통해 두 가지 효과를 얻을 수 있다고 한다. 링크 : www.youtube.com/watch?v=nUUqwaxLnWs 효과 1. 공변량 변화 문제점 해결 머신러닝 모델의 문제점 중 하나는 관측 함수가 바뀌는 것이 아니더라도 Input Data가 달라짐으로써 공변량 변화가 일어나면 학습을 다시해야 한다. 또한 인공신경망의 경우 깊은 층의 가중치는 앞쪽 층의 가중치에 영향을 덜 받는다. 이제 임의의 노드 a1x1 + a2x2 + ... +anxn을 받는 깊은 층 w3b3를 봤을 때. 이 노드는 앞의 층에서 계속해서 값이 변화하기 때문에 공변량 변화의 문제가 생기게 된다. 배치 정규화는 이 은닉층에 들어오는 값들의 분포가..

이론/논문 리뷰

[CNN] Resnet 정리

Resnet(Residual Network) 일반 컨볼루젼 신경망에서 FC레이어는 스킵/바로가기 연결이 없어, 신경망이 더 깊을 때 소실되거나 폭발하는 그래디언트 문제(problem of vanishing/exploding gradients)가 발생한다. 이를 해결하기 위해 만들어진 모델이다. Problem of Vanishing / Exploding Gradients 역전파(backpropagation) 동안, 트레이닝의 각 반복에서 현재 가중치에 대해 오차 함수(error function)의 편미분을 할 때, 이것은 n-레이어 네트워크에서 이들 작은/큰 숫자 n을 곱하여 “프론트” 레이어의 그레디언트를 계산하는 효과를 갖는다. 네트워크가 깊을 때, 이 작은 수 n을 곱하면 0이 된다. (Vanishi..

이론/분석뉴비가 알면 좋은 것

분석뉴비가 읽어보면 좋을 것

머신러닝 파이프라인 데이터 생성/수집 - 데이터 저장/관리 - 전처리(통계분석, 시각화, FE, Feature Extraction) - 기계학습(+하이퍼 파라미터 튜닝) - 오차분석(테스트, 검증데이터, 잔차분석) - 배포 머신러닝의 목적 주어진 데이터의 패턴을 파악하여 새로운 데이터에 적용 - 지도학습 - 비지도학습 - 강화학습 모델링에 필요한 것 데이터에 대한 사전 지식이 필요함. 도메인 - 물리적 의미 : 지배 방적식 등 - 수치적 특성 : 주기성, 상/하한성 등 통계 - 데이터 특성 : 분포, 인자간 상관성 FE에서 다짜고짜 x2, x3 log(x)등을 해서 잘 맞는다고 하더라도 해석하기 어려움. 지배방적식의 항을 만든다는 생각으로 접근해야 한다.(ex 만유인력 공식 등, 즉 도메인이 중요하다는 ..

이론/ML 기초

랜덤포레스트(RamdomForest, RF), 배깅

랜덤포레스트(RamdomForest, RF) 의사결정나무에 배깅 + alpha을 적용시킨 트리 기반 모델 alpha? 의사결정나무는 모든 변수를 가지고 정보 이득이 가장 높은 분할 지점을 결정하지만, 랜덤포레스트는 알고리즘의 각 단계마다 모든 변수가 아닌 랜덤하게 결정된 부분집합의 변수들에서 선택하게 된다. 이 분할을 위해 부트스트랩 샘플링, 배깅이 추가된다. 이론 랜덤포레스트 알고리즘 1. 데이터를 복원추출을 사용하여 부트스트랩 샘플링한다. 2. 모든 변수에 대해 비복원 랜덤추출로 p(p

이론/ML 기초

트리 모델, 재귀 분할, 불순도 지표

트리 모델 간단하게 설명하면 회귀분석을 연속형이 아닌 범주형 변수를 예측하기 위해 사용하는 방법이다. 보통 의사결정나무(Decision tree)로 불린다. 트리 모델은 if else 문들을 모아놓은 집합체라고 할 수 있는데, 처음부터 하나의 질문에 if else, 이후에 가지를 뻗어나가며 마치 나무를 거꾸로 그린것과 같이 보여지게 된다. 이론 재귀 분할(recursive partitioning) 트리 모델을 만들 때에 사용하는 알고리즘은 재귀 분할(recursive partitioning)이다. 재귀 분할을 간단하게 설명하면 어떤 데이터의 예측변수 X(1,2,...,n)에 대해 1. 각 예측변수 Xj에 대해 어떤 질문(s)을 넣어 모든 데이터에 대해 >= s ,

이론/ML 기초

K 최근접 이웃(K nearest neighbors : KNN)

K 최근접 이웃(K nearest neighbors : KNN) 거리를 기반으로 가장 가까운 최근접 이웃의 클래스를 또는 그 평균을 할당하는 기법으로 간단하다는 장점이 존재한다. 거리를 사용해야하기 때문에 예측변수들은 모두 수치형 변수여야만 한다. 주로 K 최근접 이웃 보다는 KNN으로 불린다. 설명 알고리즘 원리 1. 예측변수들이 유사한 K개의 레코드를 찾는다. 2(분류). 유사한 레코드들 중 다수가 속한 클래스틀 찾은 후 새 레코드를 해당 클래스에 할당한다. 또는 그 확률값을 할당한다.(유사 레코드가 1인 경우가 23/25라면 이 확률을 할당) 2(예측, KNN regression 이라고도 한다). 유사한 레코드들의 평균을 찾아 새로운 레코드의 예측값으로 사용한다. 용어 이웃(neighbors) : ..

이론/ML 기초

분류 모델 평가지표

분류 모델 평가지표 분류모델에서 사용하는 평가지표들을 정리해보고자 한다. 보통 어떤 평가지표를 사용할 지는 고객이 있는 경우에는 사이트에 따라 고객이 원하는 것이 무엇인지, 아니면 주제의 특성에 따라 정해지게 된다. 예를 들어 현재 진행중인 FDS 프로젝트에서는 Precision을 중요하게 보는 것 처럼 각각의 주제에 맞춰 알맞은 지표를 사용해야 한다. 용어 혼동행렬 분류에서 사용하는 테이블로 간단하게 유형별 예측, 오류의 수를 보여주는 행렬 yhat = 1 yhat = 0 y = 1 True Positive(TP) False Negative(FN) y = 0 False Positive(FP) True Negative(TN) 참고 : yhat = y라고 예측한 값 정확도(Accuracy) : (TP + ..

이론/ML 기초

로지스틱회귀(Logistic Regression)

로지스틱회귀(Logistic Regression) 간단하게 설명하면 회귀분석을 연속형이 아닌 범주형 변수를 예측하기 위해 사용하는 방법이다. 이론 다중회귀분석은 Y = B0 + B1X1 + ... + BnXn으로 표현된다. 여기서 목표하고자 하는 종속변수가 1일 때의 조건부 확률을 종속변수로 두면 P(Y=1|X) = B0 + B1X1 + ... + BnXn 으로 표현할 수 있다. 여기서 좌측의 조건부 확률은 범위가 0~1, 우측의 회귀식은 -inf ~ inf로 두 식을 같게 하기 위해 좌측을 변경해주어야 한다. 오즈비(Odds ratio)는 한 확률에 대해서 P / 1-P로 표현한 식인데 여기다 로그를 씌우면 로짓함수가 된다. 시그모이드 함수(로짓함수)는 ln(P / 1-P)로 이를 종속변수로 두면 좌,..

새우까앙
'이론' 카테고리의 글 목록 (4 Page)