예측(4)
-
시계열 데이터 예측 모델링(Stacked Hybrids)
시계열 데이터는 패턴이 모두 동일하지 않으며 특성에 따라 매우 다양합니다. 도메인 지식이 있는 분야라면 이를 해석하고 분석하는데 큰 어려움이 없겠지만 그렇지 않다면 많은 시간을 소비하게 되고 정확한 예측 모델링이 어렵습니다. 이때 시계열 성분은 데이터 이해와 올바른 모델링을 하기 위한 가이드라인을 제시해줍니다. TIME SERIES COMPONENT 시계열 데이터 성분은 추세(Trend), 계절성(Seasonality), 주기(Cycle), 잔차(Residual)로 이루어져 있습니다. 우선 추세란 단기~중기로 증가하거나 감소하는 패턴을 의미하며 주로 제품의 생명주기와 연관 지어 살펴볼 수 있습니다. 다음으로 계절성은 일, 주, 월, 년 단위로 변동이 반복적으로 관측되는 패턴을 의미하며 자연 현상이나 사회..
2022.03.26 -
Prophet을 활용한 Kaggle 문제 풀어보기
FaceBook Prophet Library : Facebook에서 공개한 시계열 예측 오픈소스 라이브러이인 'Prophet'을 가지고 Kaggle 문제를 풀어보자 : Prophet은 현업 전문가들이 풍부한 도메인 지식을 바탕으로 쉽게 예측 문제를 접근할 수 있도록 도와주는 라이브러리로 소개됨 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을 반영하기 어려움 분석가들은 도메인 지식만 풍부한 편이며 분석을 쉽게 다루지 못함 비전문가가 경험적 특성을 반영할 수 있도록 필요한 부분을 자동화 : 실제로 사용해본 결과 빠르게 결과를 산출해낼 수 있으며 생각외로 좋은 성능을 보여줌 : Prophet의 하이퍼 파라미터를 소개하면서 Kaggle 문제를 교보재로 소개하고자 함 Paper: https://pee..
2021.02.25 -
태양광 발전량 예측 AI 경진대회_Dacon(1/3부)
태양광 발전량 예측 AI 경진대회_Dacon(1/3부) : 시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨 : 분석 주제는 지역의 기상 데이터와 과거 발전량 데이터를 활용하여, 시간대별 태양광 발전량을 예측(30분 단위) : 한 달이 넘는 기간동안 참가했으며 대회 종료까지 104회 제출하여 Public 1위, Private Top10 기록 : 해당 대회는 굉장히 큰 Shake Up이 발생해 최종적으로는 수상을 하지 못함 : 사실 local CV와 LB score가 굉장히 틀려 과적합을 의심했었지만 LB score의 미련을 버리지 못한 실수인지.... : 이번 대회에서는 모델링뿐만 아니라 FE(feature engineering)이 매우 중요했..
2021.02.24 -
M5 Forecasting_Kaggle(1/3부)
M5 Forecasting 대회 진행 2020년 05월 30일 매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다. 이번에는 시계열 관련된 딥러닝 문제를 해결해나가며 관련된 알고리즘을 공부하고자 참가했다. 참가한 대회 정보는 아래와 같다. https://www.kaggle.com/c/m5-forecasting-accuracy M5 Forecasting - Accuracy Estimate the unit sales of Walmart retail goods www.kaggle.com 1. 현재 성적 현재 M5 Forecasting 대회에 제출한 성적은 0.48484로 1,225등이다. 해당 성적 모델은 LGBM 모델을 사용한 결과로 딥러닝 모델보다 성적이 좋아 해당 스코어로 기록됐다. ..
2020.05.30