본문 바로가기
Machine Learning

[ML] Ensemble _HAR data _ DecisionTree / RandomForest

by ram_ 2023. 1. 9.

01. 앙상블 기법

- 전통적으로 Voting, Bagging, Boosting, 스태깅 등으로 나눈다.
- 여러개의 분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 기대하는 기법이다.
- 목표 : 다양한 분류기의 예측 결과를 결합함으로서 단일 분류기보다 신뢰성이 높은 예측 값을 얻는 것이다.

* 현재 정형데이터를 대상으로 하는 분류기에서는 앙상블기법이 뛰어난 성과를 보여주고 있다.
 
    1-1 앙상블 - Voting 기법
    - 전체 데이터 셋을 가지고 각기 다른 아는 알고리즘을 다 돌린 다음에 다수결의 원칙, 즉 voting을 통해 결정하는 것

    1-2 앙상블 - bagging 기법(bagging기법의 앙상블은 거의 대부분 DecisionTree 사용한다)
    알고리즘이 똑같고, 데이터셋을 random하게 sampling(쪼갠다)하여 결과값을 내는 것. 중복 허용
      -> 부트스프래핑(bootstrapping)기법

    1-3 결정방법에서 하드보팅
    - 우리가 아는 다수결 방법
    1-4 결정방법에서 소프트보팅
    - 1일 확률이 0.9, 0.8, 0.4가 나왔을 경우 평균값을 내서 2일 확률과 비교. 큰값을 따라간다.

    1-5 RandomForest
    - DesicionTree 여러개 사용
    - bagging기법의 대표적인 방법
    - 앙상블 방법 중 속도가 비교적 빠르며 다양한 영역에서 높은 성능을 보여주고 있다
    - 비정형데이터는 딥러닝이 가장 빠른데, 정형데이터(table, excel, record 등 표로 되어있는 데이터)는 아직까지 ML이 가장 낫다.
    - DecisionTree에 적용할 parameter은 Max_depth / 몇개의 나무 쓸건지 = n_estimators /
      Tree의 맨 아래 Leaf의 데이터 양 지정 min_samples_leaf 
      Tree에서 뻗어나오는 가지 중 맨 아래 Leaf에 분할시킬 때 최소한으로 남는 데이터의 양 min_samples_split

HAR - Human Activity Recognition DATA

- IMU 센서를 활용해서 사람의 행동을 인식하는 실험
- 좀 오래된 데이터라, 핸드폰을 사람에 매달아서 데이터를 수집함.
- 폰에 있는 가속도/자이로 센서 사용
   
    데이터 소개
    - UCI HAR 데이터셋은 스마트폰을 장착한 사람의 행동을 관찰한 데이터
    - 1.걷기, 2.계단 올라가고 3.내려오기, 4.앉기, 5.일어서기 6.눕기 -> 6가지 활동 수행
    - 내장된 가속도계와 자이로스코프를 사용하여 일정한 속도로 3축 선형 가속 및 3축 각속도를 캡쳐
    - 실험은 데이터를 수동으로 라벨링하기 위해 비디오로 기록
 
 
** code 추가 할 예정
 
 
 
 

 

'Machine Learning' 카테고리의 다른 글

[ML] GBM  (0) 2023.01.10
[ML] Credit Card Fraud Detection  (0) 2023.01.10
[ML] Cost Function_ Boston 집값 예측  (0) 2023.01.07
[ML] Cost Function _poly1d  (0) 2023.01.06
[ML] ROC Curve  (0) 2023.01.06