공분산과 상관계수에 대해 정리해보고자 한다. 코베리언스, 코릴레이션이라고 말하는 사람들도 종종 보인다. 이상한 단어가 아니라 그냥 공분산, 상관계수니 그렇게 들으면 된다. 공분산(Covariance) 공분산은 두 개의 변수들 간의 편차를 활용한 변수이다. Cov(X,Y) = E((X-Mean(X))(Y-Mean(Y))) 로 표현된다. 이를 활용해 두 변수의 상관관계의 부호를 파악할 수 있다. 하지만 각 변수마다 단위 등에 의해 크기가 차이날 수 있는데, 이런 문제로 인해 상관관계의 크기를 알기는 힘들다. 참고로 위의 식을 전개하면 Cov(X,Y) = E(XY) - mean(X)mean(Y)가 된다. 여기서 X,Y가 독립이면 E(XY) = E(X)E(Y)가 되므로 공분산이 0이 된다. 상관계수(Correl..
고유값(eigen value)와 고유벡터(eigen vector) 0이 아닌 어떤 열벡터 v가 있다고 생각해보자. v를 기준으로, 어떤 A라는 정방행렬과의 연산을 취하면 원래와는 다른 벡터 b가 나오게 된다. Av = b 하지만 어떤 특정한 행렬은 기존 벡터와 평행하지만 크기만 다른 벡터가 나오게 된다. Av = Λv 이 상황은 정방행렬과 어떤 벡터와의 연산은 그 벡터에 대해 상수배를 취한 것과 같다로 정리할 수 있다. 여기서 상수 Λ를 고유값(eigen value), 벡터 v를 고유벡터(eigen vector)라고 한다. 거듭제곱의 단순화처럼, 행렬 A에 대해 고유값, 고유벡터를 찾음으로써 문제 해결의 복잡도를 단순화 시킬 수 있다는 장점이 있다. 주성분분석에서의 활용 주성분분석 관점에서 고유값과 고유..
머신러닝 파이프라인 데이터 생성/수집 - 데이터 저장/관리 - 전처리(통계분석, 시각화, FE, Feature Extraction) - 기계학습(+하이퍼 파라미터 튜닝) - 오차분석(테스트, 검증데이터, 잔차분석) - 배포 머신러닝의 목적 주어진 데이터의 패턴을 파악하여 새로운 데이터에 적용 - 지도학습 - 비지도학습 - 강화학습 모델링에 필요한 것 데이터에 대한 사전 지식이 필요함. 도메인 - 물리적 의미 : 지배 방적식 등 - 수치적 특성 : 주기성, 상/하한성 등 통계 - 데이터 특성 : 분포, 인자간 상관성 FE에서 다짜고짜 x2, x3 log(x)등을 해서 잘 맞는다고 하더라도 해석하기 어려움. 지배방적식의 항을 만든다는 생각으로 접근해야 한다.(ex 만유인력 공식 등, 즉 도메인이 중요하다는 ..