M5 Forecasting_Kaggle (2/3부)

M5 Forecasting_Kaggle (2/3부)

2020. 6. 24. 00:00ㆍData Science/04_Competition(Kaggle, Dacon)

M5 Forecasting 대회 진행

2020년 06월

M5 Forecasting 대회 종료까지 약 일주일이 남은 시점 지금까지 대회를 참가하여 배운 내용을 기록하고자 한다.

매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다.

참가한 대회 정보는 아래와 같다.

M5 Forecasting - Accuracy

Estimate the unit sales of Walmart retail goods

www.kaggle.com

1) 시계열 데이터에 대한 이해

: 우리가 다루고 있는 현실 세계에서 발생되고 있는 데이터는 대부분 시계열 데이터이며 동적인 개념으로 데이터를 바라봐야 함

: 현실 세계 시계열 데이터는 대부분 비정상 시계열 데이터이므로 정상 시계열로 변환하는 작업이 필요

: 시계열 분해를 통해 Trend, Seasonality, Cyclical 을 확인하여 데이터를 어떻게 활용할지 결정

2) 분석 모델링 실험 결과

: 성과 기준으로 LGBM -> XGB -> Vanila LSTM/GRU(many to many) -> Vanila LSTM/GRU(many to one) -> Seq2Seq LSTM/GRU

: M5에 경우 딥러닝 모델보다 LGBM/XGB와 같은 부스팅 계열의 학습 모델의 성적이 더 우수함(주관적인 실험 결과)

3) 분석 인사이트

: 딥러닝이 성과 지표(정확도/F1스코어)에 대해서 기존 학습 방법(회귀/AR 등)들에 비해 상대적으로 더 나은 방법은 아니다.

: LSTM, GRU는 단순히 성능 좋은 계산기이다.

: 모델 구조 및 하이퍼 파라미터 튜닝보다 학습시키는 데이터를 어떻게 정제하고 만들어 내는것이 성과에 더 큰 영향을 미침

: 과거에도 안팔렸던 상품들은 앞으로도 안팔릴 것이다(3,049개 모든 상품을 학습시킬 필요는 없으며 이는 EDA와 시계열 특성을 이해야 함)

마지막 게시글에는 분석 코드도 같이 첨부해봐야 겠다.

Better Than,