2020. 6. 24. 00:00ㆍData Science/04_Competition(Kaggle, Dacon)
M5 Forecasting 대회 진행
2020년 06월
M5 Forecasting 대회 종료까지 약 일주일이 남은 시점 지금까지 대회를 참가하여 배운 내용을 기록하고자 한다.
매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다.
참가한 대회 정보는 아래와 같다.
https://www.kaggle.com/c/m5-forecasting-accuracy
1) 시계열 데이터에 대한 이해
: 우리가 다루고 있는 현실 세계에서 발생되고 있는 데이터는 대부분 시계열 데이터이며 동적인 개념으로 데이터를 바라봐야 함
: 현실 세계 시계열 데이터는 대부분 비정상 시계열 데이터이므로 정상 시계열로 변환하는 작업이 필요
: 시계열 분해를 통해 Trend, Seasonality, Cyclical 을 확인하여 데이터를 어떻게 활용할지 결정
2) 분석 모델링 실험 결과
: 성과 기준으로 LGBM -> XGB -> Vanila LSTM/GRU(many to many) -> Vanila LSTM/GRU(many to one) -> Seq2Seq LSTM/GRU
: M5에 경우 딥러닝 모델보다 LGBM/XGB와 같은 부스팅 계열의 학습 모델의 성적이 더 우수함(주관적인 실험 결과)
3) 분석 인사이트
: 딥러닝이 성과 지표(정확도/F1스코어)에 대해서 기존 학습 방법(회귀/AR 등)들에 비해 상대적으로 더 나은 방법은 아니다.
: LSTM, GRU는 단순히 성능 좋은 계산기이다.
: 모델 구조 및 하이퍼 파라미터 튜닝보다 학습시키는 데이터를 어떻게 정제하고 만들어 내는것이 성과에 더 큰 영향을 미침
: 과거에도 안팔렸던 상품들은 앞으로도 안팔릴 것이다(3,049개 모든 상품을 학습시킬 필요는 없으며 이는 EDA와 시계열 특성을 이해야 함)
마지막 게시글에는 분석 코드도 같이 첨부해봐야 겠다.
'Data Science > 04_Competition(Kaggle, Dacon)' 카테고리의 다른 글
태양광 발전량 예측 AI 경진대회_Dacon(1/3부) (0) | 2021.02.24 |
---|---|
M5 Forecasting_Kaggle(3/3부) (0) | 2020.07.05 |
M5 Forecasting_Kaggle(1/3부) (0) | 2020.05.30 |
Bengali_Kaggle(2/2부) (0) | 2020.05.04 |
Bengali_Kaggle(1/2부) (0) | 2020.03.08 |