정규화(Regularization)/배깅(Bagging)/부스팅(Boosting)

2020. 12. 17. 09:00Data Science/02_Time Series Analysis

반응형

 

모델의 성능을 높히는 방법

 

: 모델의 성능을 향상시키기 위해 정규화앙상블(배깅/부스팅) 방법을 살펴봄

 

 

1. 정규화(Regularization)

 

: 선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 구성되는 것을 방지해주는 방법

: 과최적화는 계수 크기를 과도하게 증가 하는 경향이 있기에, 정규화 방법에서의 제약조건은 일반적으로 계수의 크기를 제한함

: 정규화 방식은 릿지(Ridge) 와 라쏘(Lasso) 2가지 구분됨

 

  • 릿지(Ridge), L2 규제

 

  • 𝜆λ=0: 일반적인 선형 회귀모형(OLS)
  • 𝜆λ를 크게 두면 정규화(패널티) 정도가 커지기 때문에 가중치(𝛽𝑖βi)의 값들이 커질 수 없음(작아짐)
  • 𝜆λ를 작게 두면 정규화(패널티) 정도가 작아 지기 때문에 가중치(𝛽𝑖βi)의 값들의 자유도가 높아져 커질 수 있음(커짐)
  • 가중치(𝛽𝑖βi) 제곱값을 최소화 시키기 위에 계수값이 큰 변수부터 최소화 시키려 하며 1에 수렴시키려 최적화 함
  • 모든 변수들을 포함하려 하므로 변수가 많은 경우 효과가 좋지 않으나 과적합을 방지하는데 효과적
  • 다중공선성이 존재할 경우, 변수 간 상관관계에 따라 계수로 다중공선성이 분산되기에 효과가 높음

 


릿지 규제가 포함된 비용 함수 


 

 

  • 라쏘(Lasso), L1 규제

 

  • 𝜆λ=0: 일반적인 선형 회귀모형(OLS)
  • 𝜆λ를 크게 두면 정규화(패널티) 정도가 커지기 때문에 가중치(𝛽𝑖βi)의 값들이 커질 수 없음(작아짐)
  • 𝜆λ를 작게 두면 정규화(패널티) 정도가 작아 지기 때문에 가중치(𝛽𝑖βi)의 값들의 자유도가 높아져 커질 수 있음(커짐)
  • 가중치(𝛽𝑖βi) 절대값을 최소화 시키기 위에 필요 없는 변수들을 0에 수렴시키려고 최적화 진행
  • 알고리즘이 최소한의 변수를 포함하려 하기 때문에 필요 없는 변수들의 계수는 0이 됨(Features Selection)
  • 변수 선택이 자동적으로 진행되지만 특정 변수의 계수가 커지는 단점이 존재
  • 다중공선성이 있는경우 릿지에 비해 상대적으로 효과가 적음

 


라쏘 규제가 포함된 비용 함수


 

 

2. 배깅(Bagging)

 

앙상블(Ensemble) 방식 중 하나로 부트스트래핑(Bootstraping)을 통해 여러 학습 데이터를 만들고 개별 모델을 통합하여 활용

배깅 기반의 대표 알고리즘으로 많이 사용하는 랜덤포레스트(Random Forest)가 있음

 


랜덤 포레스트


 

 

 

3. 부스팅(Boosting)

 

앙상블(Ensemble) 방식 중 하나로 성능이 약한 학습기(week learner)를 여러 개 연결하여 강한 학습기(strong learner)로 만들어 감

: 앞에서 학습된 모델을 보완해나가면서 더 나은 모델로 학습시켜가는 방법

 


AdaBoost 설명


 

 

반응형

'Data Science > 02_Time Series Analysis' 카테고리의 다른 글

시계열 알고리즘_ARIMA/SARIMA  (0) 2020.12.21
시계열 알고리즘_AR/MA/ARMA  (0) 2020.12.18
시계열 데이터 전처리3  (0) 2020.12.16
시계열 데이터 전처리2  (0) 2020.12.15
잔차 진단  (0) 2020.12.14