태양광 발전량 예측 AI 경진대회_Dacon(1/3부)

2021. 2. 24. 22:40Data Science/04_Competition(Kaggle, Dacon)

반응형

 

태양광 발전량 예측 AI 경진대회_Dacon(1/3부)

 


데이콘 태양광 발전량 예측 AI 경진대회


 

시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨

: 분석 주제지역의 기상 데이터와 과거 발전량 데이터를 활용하여, 시간대별 태양광 발전량을 예측(30분 단위)

: 한 달이 넘는 기간동안 참가했으며 대회 종료까지 104회 제출하여 Public 1위, Private Top10 기록

: 해당 대회는 굉장히 큰 Shake Up이 발생해 최종적으로는 수상을 하지 못함

: 사실 local CV와 LB score가 굉장히 틀려 과적합을 의심했었지만 LB score의 미련을 버리지 못한 실수인지....

: 이번 대회에서는 모델링뿐만 아니라 FE(feature engineering)이 매우 중요했음

: 대회를 참가하면서 사용했던 모델분석 방법들을 해당 블로그를 통해 기록하고자 함 

 


대회 성적_Public


 

 

1. 데이터 설명

 

: 데이터 설명을 위해 1) 데이터 구조, 2) 변수 설명, 3) 평가 지표를 소개하고자 함

 

 

1-1) 데이터 구조

: 학습 데이터는 3년이며 예측해야 하는 테스트 데이터는 학습 데이터 이후 2년 

: 모델은 7일(Day 0~ Day6) 동안의 데이터를 인풋 -> 향후 2일(Day7 ~ Day8) 동안의 30분 간격의 발전량(TARGET)을 예측

: 테스트 기간내 1일당 48개총 96개 타임스텝에 대한 예측하는 문제

: 학습 기간 내 데이터를 활용하여 다양한 시도를 해볼 수 있는 구조로 대회가 진행됨

: 예측모델의 경우 Test Data의 7일간 데이터를 바탕으로 모델 학습에 사용해서는 안되며 오로지 학습 데이터만 사용 가능

 


학습 데이터 기간 및 예측


 

 

1-2) 변수 설명

: 전체 변수의 개수는 9개, 이중 8개의 독립 변수(Day, Hour.. 등)와 1개의 종속변수(TARGET)로 구성

: 시간과 관련된 변수 -> Day, Hour, Minute

: 일사량과 관련된  변수 -> DHI, DNI

: 기온과 관련된 변수 -> WS, RH, T

: 모든 변수들의 결측값은 존재하지 않으며 30분 단위로 측정되어 데이터가 축적됨

: 예측 분석에 사용할 때 Lag, Diff도 성능향상에 도움이 되었지만 시간과 기후, 일사량 관련된 파생변수들 중요

 


데이터 변수 설명


 

 

1-3) 평가 지표(Cost Function)

: 본 대회에서는 Pinball Loss를 사용하여 모델을 평가

: Pinball Loss를 해석해보면 높은 분위수에서는 실제값보다 크게, 낮은 분위수에서는 실제값보다 낮게 예측할수록 Loss를 줄일 수 있음

: Piball Loss을 살펴봤을때 가장 적합한 모델로 Quantile Reg(분위수 회귀)가 가장 먼저 떠오르게 됨

: 우리가 예측하는 문제들은 일반적으로 0.5 분위수를 기준으로 모델을 학습함

: 하지만 분위수 회귀는 결과 변수의 Q분위수를 기준으로 모델을 학습하여 추론하게 됨

 


분위수 회귀 및 pinball loss


 

 

: (다음편 예고) 다음 포스팅에서는 예측에 사용한 모델CV를 설명

 

반응형