01. 앙상블 기법
- 전통적으로 Voting, Bagging, Boosting, 스태깅 등으로 나눈다.
- 여러개의 분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 기대하는 기법이다.
- 목표 : 다양한 분류기의 예측 결과를 결합함으로서 단일 분류기보다 신뢰성이 높은 예측 값을 얻는 것이다.
* 현재 정형데이터를 대상으로 하는 분류기에서는 앙상블기법이 뛰어난 성과를 보여주고 있다.
1-1 앙상블 - Voting 기법
- 전체 데이터 셋을 가지고 각기 다른 아는 알고리즘을 다 돌린 다음에 다수결의 원칙, 즉 voting을 통해 결정하는 것
1-2 앙상블 - bagging 기법(bagging기법의 앙상블은 거의 대부분 DecisionTree 사용한다)
알고리즘이 똑같고, 데이터셋을 random하게 sampling(쪼갠다)하여 결과값을 내는 것. 중복 허용
-> 부트스프래핑(bootstrapping)기법
1-3 결정방법에서 하드보팅
- 우리가 아는 다수결 방법
1-4 결정방법에서 소프트보팅
- 1일 확률이 0.9, 0.8, 0.4가 나왔을 경우 평균값을 내서 2일 확률과 비교. 큰값을 따라간다.
1-5 RandomForest
- DesicionTree 여러개 사용
- bagging기법의 대표적인 방법
- 앙상블 방법 중 속도가 비교적 빠르며 다양한 영역에서 높은 성능을 보여주고 있다
- 비정형데이터는 딥러닝이 가장 빠른데, 정형데이터(table, excel, record 등 표로 되어있는 데이터)는 아직까지 ML이 가장 낫다.
- DecisionTree에 적용할 parameter은 Max_depth / 몇개의 나무 쓸건지 = n_estimators /
Tree의 맨 아래 Leaf의 데이터 양 지정 min_samples_leaf
Tree에서 뻗어나오는 가지 중 맨 아래 Leaf에 분할시킬 때 최소한으로 남는 데이터의 양 min_samples_split
HAR - Human Activity Recognition DATA
- IMU 센서를 활용해서 사람의 행동을 인식하는 실험
- 좀 오래된 데이터라, 핸드폰을 사람에 매달아서 데이터를 수집함.
- 폰에 있는 가속도/자이로 센서 사용
데이터 소개
- UCI HAR 데이터셋은 스마트폰을 장착한 사람의 행동을 관찰한 데이터
- 1.걷기, 2.계단 올라가고 3.내려오기, 4.앉기, 5.일어서기 6.눕기 -> 6가지 활동 수행
- 내장된 가속도계와 자이로스코프를 사용하여 일정한 속도로 3축 선형 가속 및 3축 각속도를 캡쳐
- 실험은 데이터를 수동으로 라벨링하기 위해 비디오로 기록
** code 추가 할 예정
'Machine Learning' 카테고리의 다른 글
[ML] GBM (0) | 2023.01.10 |
---|---|
[ML] Credit Card Fraud Detection (0) | 2023.01.10 |
[ML] Cost Function_ Boston 집값 예측 (0) | 2023.01.07 |
[ML] Cost Function _poly1d (0) | 2023.01.06 |
[ML] ROC Curve (0) | 2023.01.06 |