본문 바로가기

통계/선형대수

고유값과 고유벡터

0. Introduction

주성분분석(Principal Component Analysis)을 공부할 때 '고유값 분해'에 대한 내용이 나온다.

PCA는 데이터 분포의 주성분을 분석하여 차원을 축소시키는 방법 중 하나로, 고유값 분해는 이러한 주성분 벡터를 찾아낼 때 사용된다. 데이터의 공분산행렬을 찾아서 고유값 분해를 통해 분산을 최대한 유지시켜 주는 공헌도가 큰(값이 큰) 고유값과 고유벡터를 찾아 데이터를 그 고유벡터에 투영시키는 거다.

1. 고유값(EigenValue)과 고유벡터(EigenVector)란?

정방행렬 $A$, 실수 $\lambda$, 벡터 $u$에 대해, $Au = \lambda u$인 $u \neq 0$인 벡터 $u$가 존재하면, 실수 $\lambda$를 $A$의 고유값이라 하고, 이떄 벡터$u$를 고유값 $\lambda$에 대응하는 $A$의 고유벡터라고 한다.

참고로 행렬 $A$에 대한 0이 아닌 고유값의 개수는 $r(A) = r(\Lambda)$이다. 주성분 분석을 생각해보면 공헌도가 큰 고유값은 살리고 작은 애들은 무시해버려서 주성분 벡터를 구하는 거라고 생각하면 된다!

2. 계산 방법

고유벡터 존재여부에 대한 필요충분조건은 다음과 같다.

$$(A-\lambda I)u = 0$$
이때 $f(\lambda) = (A-\lambda I)$를 행렬 $A$에 대한 특성방정식(Characteristic Equation)이라 하고, 해당 식을 만족하는 스칼라는 행렬 $A$의 고유값이 된다.

위 특성방정식을 이용해서 특정 행렬에 대한 고유값과 고유벡터를 계산할 수 있다!

'통계 > 선형대수' 카테고리의 다른 글

더미 변수(Dummy Variable)와 회귀분석  (0) 2020.04.18
행렬대수  (0) 2020.04.18