0. Introduction
주성분분석(Principal Component Analysis)을 공부할 때 '고유값 분해'에 대한 내용이 나온다.
PCA는 데이터 분포의 주성분을 분석하여 차원을 축소시키는 방법 중 하나로, 고유값 분해는 이러한 주성분 벡터를 찾아낼 때 사용된다. 데이터의 공분산행렬을 찾아서 고유값 분해를 통해 분산을 최대한 유지시켜 주는 공헌도가 큰(값이 큰) 고유값과 고유벡터를 찾아 데이터를 그 고유벡터에 투영시키는 거다.
1. 고유값(EigenValue)과 고유벡터(EigenVector)란?
정방행렬 $A$, 실수 $\lambda$, 벡터 $u$에 대해, $Au = \lambda u$인 $u \neq 0$인 벡터 $u$가 존재하면, 실수 $\lambda$를 $A$의 고유값이라 하고, 이떄 벡터$u$를 고유값 $\lambda$에 대응하는 $A$의 고유벡터라고 한다.
참고로 행렬 $A$에 대한 0이 아닌 고유값의 개수는 $r(A) = r(\Lambda)$이다. 주성분 분석을 생각해보면 공헌도가 큰 고유값은 살리고 작은 애들은 무시해버려서 주성분 벡터를 구하는 거라고 생각하면 된다!
2. 계산 방법
고유벡터 존재여부에 대한 필요충분조건은 다음과 같다.
$$(A-\lambda I)u = 0$$
이때 $f(\lambda) = (A-\lambda I)$를 행렬 $A$에 대한 특성방정식(Characteristic Equation)이라 하고, 해당 식을 만족하는 스칼라는 행렬 $A$의 고유값이 된다.
위 특성방정식을 이용해서 특정 행렬에 대한 고유값과 고유벡터를 계산할 수 있다!
'통계 > 선형대수' 카테고리의 다른 글
더미 변수(Dummy Variable)와 회귀분석 (0) | 2020.04.18 |
---|---|
행렬대수 (0) | 2020.04.18 |