시계열(17)
-
시계열 데이터 예측 모델링(Stacked Hybrids)
시계열 데이터는 패턴이 모두 동일하지 않으며 특성에 따라 매우 다양합니다. 도메인 지식이 있는 분야라면 이를 해석하고 분석하는데 큰 어려움이 없겠지만 그렇지 않다면 많은 시간을 소비하게 되고 정확한 예측 모델링이 어렵습니다. 이때 시계열 성분은 데이터 이해와 올바른 모델링을 하기 위한 가이드라인을 제시해줍니다. TIME SERIES COMPONENT 시계열 데이터 성분은 추세(Trend), 계절성(Seasonality), 주기(Cycle), 잔차(Residual)로 이루어져 있습니다. 우선 추세란 단기~중기로 증가하거나 감소하는 패턴을 의미하며 주로 제품의 생명주기와 연관 지어 살펴볼 수 있습니다. 다음으로 계절성은 일, 주, 월, 년 단위로 변동이 반복적으로 관측되는 패턴을 의미하며 자연 현상이나 사회..
2022.03.26 -
시계열 데이터 전처리(Encoding Time Step Features)
시계열 데이터를 분석하는 과정에서 주기적 성질을 지니고 있는 데이터들을 빈번히 발견할 수 있습니다. 데이터가 주기적 성질을 지니고 있다면 사인함수, 코사인함수와 같은 삼각함수의 합으로 표현이 가능하고 이를 통해 데이터를 다른 관점에서 바라볼 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관측값이 주기적 성질..
2022.01.31 -
태양광 발전량 예측 AI 경진대회_Dacon(3/3부)
태양광 발전량 예측 AI 경진대회_Dacon(3/3부) : 지난 포스팅에서는 1) 태양광 발전량 예측 AI 경진대회 문제 및 데이터와 2) Base model을 소개자료는 아래와 같음 : 이번 포스팅에서는 가장 최고의 성능을 보여주었던 모델을 소개하고자 함(단일 모델) 태양광 발전량 예측 AI 경진대회 링크 dacon.io/competitions/official/235680/overview/ 태양광 발전량 예측 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 태양광 발전량 예측 AI 경진대회_Dacon(1/3부)_ 대회 및 데이터 소개 today-1.tistory.com/40 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) 태양광 발전량 예측 AI..
2021.03.06 -
태양광 발전량 예측 AI 경진대회_Dacon(2/3부)
태양광 발전량 예측 AI 경진대회_Dacon(2/3부) : 지난 포스팅에서는 태양광 발전량 예측 AI 경진대회 문제와 데이터에 대해 소개를 함 : 이번 포스팅에서는 모델의 설명력과 성능을 가장 향상시켜 줬던 변수(처리방법 포함)와 모델을 공유하고자 함 태양광 발전량 예측 AI 경진대회_Dacon(1/3부)_ 대회 및 데이터 소개 today-1.tistory.com/40 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) : 시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨 : 분석 주제는 지역의 기상 데이터와 과거 발 today-1.tistory.com 대회 소개(링크) dacon.io..
2021.02.26 -
Prophet을 활용한 Kaggle 문제 풀어보기
FaceBook Prophet Library : Facebook에서 공개한 시계열 예측 오픈소스 라이브러이인 'Prophet'을 가지고 Kaggle 문제를 풀어보자 : Prophet은 현업 전문가들이 풍부한 도메인 지식을 바탕으로 쉽게 예측 문제를 접근할 수 있도록 도와주는 라이브러리로 소개됨 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을 반영하기 어려움 분석가들은 도메인 지식만 풍부한 편이며 분석을 쉽게 다루지 못함 비전문가가 경험적 특성을 반영할 수 있도록 필요한 부분을 자동화 : 실제로 사용해본 결과 빠르게 결과를 산출해낼 수 있으며 생각외로 좋은 성능을 보여줌 : Prophet의 하이퍼 파라미터를 소개하면서 Kaggle 문제를 교보재로 소개하고자 함 Paper: https://pee..
2021.02.25 -
태양광 발전량 예측 AI 경진대회_Dacon(1/3부)
태양광 발전량 예측 AI 경진대회_Dacon(1/3부) : 시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨 : 분석 주제는 지역의 기상 데이터와 과거 발전량 데이터를 활용하여, 시간대별 태양광 발전량을 예측(30분 단위) : 한 달이 넘는 기간동안 참가했으며 대회 종료까지 104회 제출하여 Public 1위, Private Top10 기록 : 해당 대회는 굉장히 큰 Shake Up이 발생해 최종적으로는 수상을 하지 못함 : 사실 local CV와 LB score가 굉장히 틀려 과적합을 의심했었지만 LB score의 미련을 버리지 못한 실수인지.... : 이번 대회에서는 모델링뿐만 아니라 FE(feature engineering)이 매우 중요했..
2021.02.24