본문 바로가기
Machine Learning

[ML] PCA 개념

by ram_ 2023. 2. 24.

Principal Component Analysis

    - 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를 찾아 내는 방법

    - 통계 데이터 분석(주성분찾기), 데이터 압축(차원감소), 노이즈 제거 등 다양한 분야에서 사용

 

PCA 개념

    - 차원축소(dimensionality)와 변수추출(feature extraction)기법으로 널리 쓰이고 있는 주성분분석(PCA)

    - PCA는 데이터의 분산을 최대한 보존하면서 서로 직교하는 새 기저(축feature)를 찾아, 

      고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법

    - 변수추출(Feature Extraction)은 기존 변수를 조합해 새로운 변수를 만드는 기법

      (기존의 변수선택(Feature Selection)과 구분할 것)

        -> 쉽게 말해, PCA는 새로운 특성을 만들어낸다. 

            주성분을 찾아내고 나면, 설명력이라는 변수에 의해 얼마나 데이터를 설명하는지 알 수 있는 것이다.

 

 


PCA에서는 Scaler적용이 꽤나 중요하다.

n_components는 기존 데이터에서 몇개의 칼럼이 쓰일지 주성분 갯수를 지정해주는 것이다.