Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

통계/선형대수

(3)
더미 변수(Dummy Variable)와 회귀분석 더미 변수(Dummy Variable)의 이해 회귀분석에서 일반적으로 다루어지는 변수는 온도, 습도, 가격 등 같이 양적으로 비교가 가능한 변수들이다. 하지만, 양적으로 비교가 안되는 질적변수(e.g. 성별, 인종, 학력 등)를 표현하기 위해 더미변수를 사용한다. 회귀분석에서 더미 변수는 표본공간 내에 들어가면 1을 주고, 그렇지 않으면 0을 줌으로써 어떤 특징의 존재 여부를 체크하는 변수다. Full Rank or not... 하지만 요놈이 회귀분석을 할 때, X의 rank를 Full rank(완전계수) 로 만들지 못하면 망해버린다. 즉, 열과 행간의 종속 관계가 생겨버리면 XX 행렬식이 0이 되서 역행렬이 존재하지 않는 비정책행렬이 돼버리기 때문에 OLS1(Ordinary Least S..
고유값과 고유벡터 0. Introduction 주성분분석(Principal Component Analysis)을 공부할 때 '고유값 분해'에 대한 내용이 나온다. PCA는 데이터 분포의 주성분을 분석하여 차원을 축소시키는 방법 중 하나로, 고유값 분해는 이러한 주성분 벡터를 찾아낼 때 사용된다. 데이터의 공분산행렬을 찾아서 고유값 분해를 통해 분산을 최대한 유지시켜 주는 공헌도가 큰(값이 큰) 고유값과 고유벡터를 찾아 데이터를 그 고유벡터에 투영시키는 거다. 1. 고유값(EigenValue)과 고유벡터(EigenVector)란? 정방행렬 A, 실수 λ, 벡터 u에 대해, Au=λuu0인 벡터 u가 존재하면, 실수 λA의 고유값이라 하고, ..
행렬대수 수리통계학을 공부하다보면 대부분의 수학적 증명이 행렬로 표현되어 있는 걸 볼 수 있다.(특히 다중회귀분석) 이렇게 표현하는게 이해하기 쉽다고 하는 데 하여튼 표현하는 데 편하다는 거엔 동의를 하지만...(입틀막) 행렬의 성질과 계산에 약하면 돌고돌아서 정체불명의 알 수 없는 결론에 도달한 스스로를 발견할 수 있다. 그런고로 자주 나오는 용어와 성질들을 정리해보도록 하자! 행렬에 어느정도 익숙한 사람 입장에서 쓴 내용이니 감안해서 읽도록 하자 1. 행렬의 정의(Matrix) 행렬이란 행과 열로 배열된 수들 바로 행렬 표현식을 봐보자 $$ A = (a_{ij}) = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & ..