정규화(Regularization)/배깅(Bagging)/부스팅(Boosting)
2020. 12. 17. 09:00ㆍData Science/02_Time Series Analysis
반응형
모델의 성능을 높히는 방법
: 모델의 성능을 향상시키기 위해 정규화와 앙상블(배깅/부스팅) 방법을 살펴봄
1. 정규화(Regularization)
: 선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 구성되는 것을 방지해주는 방법
: 과최적화는 계수 크기를 과도하게 증가 하는 경향이 있기에, 정규화 방법에서의 제약조건은 일반적으로 계수의 크기를 제한함
: 정규화 방식은 릿지(Ridge) 와 라쏘(Lasso) 2가지 구분됨
- 릿지(Ridge), L2 규제
- 𝜆λ=0: 일반적인 선형 회귀모형(OLS)
- 𝜆λ를 크게 두면 정규화(패널티) 정도가 커지기 때문에 가중치(𝛽𝑖βi)의 값들이 커질 수 없음(작아짐)
- 𝜆λ를 작게 두면 정규화(패널티) 정도가 작아 지기 때문에 가중치(𝛽𝑖βi)의 값들의 자유도가 높아져 커질 수 있음(커짐)
- 가중치(𝛽𝑖βi) 제곱값을 최소화 시키기 위에 계수값이 큰 변수부터 최소화 시키려 하며 1에 수렴시키려 최적화 함
- 모든 변수들을 포함하려 하므로 변수가 많은 경우 효과가 좋지 않으나 과적합을 방지하는데 효과적
- 다중공선성이 존재할 경우, 변수 간 상관관계에 따라 계수로 다중공선성이 분산되기에 효과가 높음
- 라쏘(Lasso), L1 규제
- 𝜆λ=0: 일반적인 선형 회귀모형(OLS)
- 𝜆λ를 크게 두면 정규화(패널티) 정도가 커지기 때문에 가중치(𝛽𝑖βi)의 값들이 커질 수 없음(작아짐)
- 𝜆λ를 작게 두면 정규화(패널티) 정도가 작아 지기 때문에 가중치(𝛽𝑖βi)의 값들의 자유도가 높아져 커질 수 있음(커짐)
- 가중치(𝛽𝑖βi) 절대값을 최소화 시키기 위에 필요 없는 변수들을 0에 수렴시키려고 최적화 진행
- 알고리즘이 최소한의 변수를 포함하려 하기 때문에 필요 없는 변수들의 계수는 0이 됨(Features Selection)
- 변수 선택이 자동적으로 진행되지만 특정 변수의 계수가 커지는 단점이 존재
- 다중공선성이 있는경우 릿지에 비해 상대적으로 효과가 적음
2. 배깅(Bagging)
: 앙상블(Ensemble) 방식 중 하나로 부트스트래핑(Bootstraping)을 통해 여러 학습 데이터를 만들고 개별 모델을 통합하여 활용
: 배깅 기반의 대표 알고리즘으로 많이 사용하는 랜덤포레스트(Random Forest)가 있음
3. 부스팅(Boosting)
: 앙상블(Ensemble) 방식 중 하나로 성능이 약한 학습기(week learner)를 여러 개 연결하여 강한 학습기(strong learner)로 만들어 감
: 앞에서 학습된 모델을 보완해나가면서 더 나은 모델로 학습시켜가는 방법
반응형
'Data Science > 02_Time Series Analysis' 카테고리의 다른 글
시계열 알고리즘_ARIMA/SARIMA (0) | 2020.12.21 |
---|---|
시계열 알고리즘_AR/MA/ARMA (0) | 2020.12.18 |
시계열 데이터 전처리3 (0) | 2020.12.16 |
시계열 데이터 전처리2 (0) | 2020.12.15 |
잔차 진단 (0) | 2020.12.14 |