시계열 데이터 전처리1

2020. 12. 10. 15:36Data Science/02_Time Series Analysis

728x90

 

시계열 데이터패턴

 

: 시계열 데이터 분석에 있어 파생변수를 만드는 것은 가장 중요하고 시간이 많이 걸리는 작업

: 변수 생성시 주의해야 할 2가지

  • 미래의 실제 종속 변수 예측값이 어떤 독립/종속 변수의 FE에 의해 효과가 있을지 단정지을 수 없음
  • 독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수 예측에 오류를 야기할 수 있음

 

 

1. 시계열 데이터패턴 추출

 

: 시계열 파생변수 종류

  • 빈도(Frequncy) : 계절성 패턴(Seasonality)이 나타나기 전까지 사람이 정의

빈도 변수 생성


 

 

  • 추세(Trend) : 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우
  • 계절성(Seasonaliy) : 일정한 빈도로 주기적으로 반복되는 패턴
  • 주기(Cycle) : 일정하지 않은 빈도로 발생하는 패턴

 


시계열 분해


 

  • 더미변수(Dummy Variables) : 이진수의 형태로 변수를 생성하는 것으로 휴일, 이벤트, 캠페인, 아웃라이어 등을 생성 가능
  • 지연값(Lagged values) : 변수의 진연된 값을 독립변수로 반영하는 것으로 ARIMA/VAR/NNAR 등이 활용
  • 시간변수 : 시간변수를 미시/거시 적으로 분리하거나 통합하여 생성된 변수(YEAR/M/D/H 등) 

 

 

: 시계열 구성요소는 각 변수의 시간패턴을 파악하는데 중요

: FE를 통해 생성된 변수의 입력 형태로 모형 선택을 하는데 필요

: 생성된 변수의 패턴이 기존 모델에서 반영하지 않던 패턴이라면 예측 성능을 높임

: 예측 성능 향상 뿐 아니라 결과를 해석하고 해당 속성을 분리하며 가능한 원인 식별에 도움

 

 

2. 시계열 데이터 분리

 

: 비시계열 데이터 준비(시간 차원을 보존하지 않음)

 

  • 훈련 데이터(Train set) : 통상적으로 전체 데이터 셋 중 60% 사용, 과거
  • 검증 데이터(Validation set) : 통상적으로 전체 데이터 셋 중 20% 사용, 과거
  • 테스트 데이터(Test set) : 통상적으로 전체 데이터 셋 중 20% 사용, 미래

 


 

Train - Valid - Test


 

: 비시계열 데이터 나누는 방법

  • 홀드아웃(Hold-Out) : 데이터 셋을 고정(일정 비율 2:8, 3,7 등)
  • 교차 검증(K-Fold) : 훈련셋을 복원 없이 K개로 분리한 뒤 테스트 셋은 1개, 훈련 셋은 K-1 개   
  • Levae - One - Out : 테스트 셋 1개, 훈련셋 N-1 개

 

 

 

 

: 시계열 데이터 준비(시간 차원을 보존, 날짜를 정하는게 가장 핵심)

  • 훈련 데이터(Train set) : 가장 오래된 데이터
  • 검증 데이터(Validation set) : 그 다음 최근 데이터
  • 테스트 데이터(Test set) : 가장 최신의 데이터

 

: 시계열 데이터 나누는 방법(단기와 장기 모델을 나눠서 만들어 사용하는것이 제일 합리적이고 효과적임)

  • 1스텝 교차검사(One-step Ahead Cross-validation) : 1번째 시점을 Test Set으로 사용
  • 2스텝 교차 검사(Two-step Ahead Cross-validation) : 2번째 시점을 Test Set으로 사용

시계열 데이터 셋 평가 방법


 

728x90

'Data Science > 02_Time Series Analysis' 카테고리의 다른 글

시계열 데이터 전처리3  (0) 2020.12.16
시계열 데이터 전처리2  (0) 2020.12.15
잔차 진단  (0) 2020.12.14
가설 검정  (0) 2020.12.02
시계열 및 통계 용어  (0) 2020.11.27