Principal Component Analysis
- 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를 찾아 내는 방법
- 통계 데이터 분석(주성분찾기), 데이터 압축(차원감소), 노이즈 제거 등 다양한 분야에서 사용
PCA 개념
- 차원축소(dimensionality)와 변수추출(feature extraction)기법으로 널리 쓰이고 있는 주성분분석(PCA)
- PCA는 데이터의 분산을 최대한 보존하면서 서로 직교하는 새 기저(축feature)를 찾아,
고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법
- 변수추출(Feature Extraction)은 기존 변수를 조합해 새로운 변수를 만드는 기법
(기존의 변수선택(Feature Selection)과 구분할 것)
-> 쉽게 말해, PCA는 새로운 특성을 만들어낸다.
주성분을 찾아내고 나면, 설명력이라는 변수에 의해 얼마나 데이터를 설명하는지 알 수 있는 것이다.
PCA에서는 Scaler적용이 꽤나 중요하다.
n_components는 기존 데이터에서 몇개의 칼럼이 쓰일지 주성분 갯수를 지정해주는 것이다.
'Machine Learning' 카테고리의 다른 글
[ML] 추천시스템_ 책 추천 알고리즘 (0) | 2023.01.12 |
---|---|
[ML] 추천시스템_ 장르 유사도를 고려한 영화 추천 알고리즘 (0) | 2023.01.11 |
[ML] GBM (0) | 2023.01.10 |
[ML] Credit Card Fraud Detection (0) | 2023.01.10 |
[ML] Ensemble _HAR data _ DecisionTree / RandomForest (0) | 2023.01.09 |