Better Than,

시계열 데이터 전처리1

2020. 12. 10. 15:36ㆍData Science/02_Time Series Analysis

시계열 데이터패턴

: 시계열 데이터 분석에 있어 파생변수를 만드는 것은 가장 중요하고 시간이 많이 걸리는 작업

: 변수 생성시 주의해야 할 2가지

미래의 실제 종속 변수 예측값이 어떤 독립/종속 변수의 FE에 의해 효과가 있을지 단정지을 수 없음
독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수 예측에 오류를 야기할 수 있음

1. 시계열 데이터패턴 추출

: 시계열 파생변수 종류

빈도(Frequncy) : 계절성 패턴(Seasonality)이 나타나기 전까지 사람이 정의

빈도 변수 생성

추세(Trend) : 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우
계절성(Seasonaliy) : 일정한 빈도로 주기적으로 반복되는 패턴
주기(Cycle) : 일정하지 않은 빈도로 발생하는 패턴

시계열 분해

더미변수(Dummy Variables) : 이진수의 형태로 변수를 생성하는 것으로 휴일, 이벤트, 캠페인, 아웃라이어 등을 생성 가능
지연값(Lagged values) : 변수의 진연된 값을 독립변수로 반영하는 것으로 ARIMA/VAR/NNAR 등이 활용
시간변수 : 시간변수를 미시/거시 적으로 분리하거나 통합하여 생성된 변수(YEAR/M/D/H 등)

: 시계열 구성요소는 각 변수의 시간패턴을 파악하는데 중요

: FE를 통해 생성된 변수의 입력 형태로 모형 선택을 하는데 필요

: 생성된 변수의 패턴이 기존 모델에서 반영하지 않던 패턴이라면 예측 성능을 높임

: 예측 성능 향상 뿐 아니라 결과를 해석하고 해당 속성을 분리하며 가능한 원인 식별에 도움

2. 시계열 데이터 분리

: 비시계열 데이터 준비(시간 차원을 보존하지 않음)

훈련 데이터(Train set) : 통상적으로 전체 데이터 셋 중 60% 사용, 과거
검증 데이터(Validation set) : 통상적으로 전체 데이터 셋 중 20% 사용, 과거
테스트 데이터(Test set) : 통상적으로 전체 데이터 셋 중 20% 사용, 미래

Train - Valid - Test

: 비시계열 데이터 나누는 방법

홀드아웃(Hold-Out) : 데이터 셋을 고정(일정 비율 2:8, 3,7 등)
교차 검증(K-Fold) : 훈련셋을 복원 없이 K개로 분리한 뒤 테스트 셋은 1개, 훈련 셋은 K-1 개
Levae - One - Out : 테스트 셋 1개, 훈련셋 N-1 개

: 시계열 데이터 준비(시간 차원을 보존, 날짜를 정하는게 가장 핵심)

훈련 데이터(Train set) : 가장 오래된 데이터
검증 데이터(Validation set) : 그 다음 최근 데이터
테스트 데이터(Test set) : 가장 최신의 데이터

: 시계열 데이터 나누는 방법(단기와 장기 모델을 나눠서 만들어 사용하는것이 제일 합리적이고 효과적임)

1스텝 교차검사(One-step Ahead Cross-validation) : 1번째 시점을 Test Set으로 사용
2스텝 교차 검사(Two-step Ahead Cross-validation) : 2번째 시점을 Test Set으로 사용

시계열 데이터 셋 평가 방법

'Data Science > 02_Time Series Analysis' 카테고리의 다른 글

시계열 데이터 전처리3 (0)	2020.12.16
시계열 데이터 전처리2 (0)	2020.12.15
잔차 진단 (0)	2020.12.14
가설 검정 (0)	2020.12.02
시계열 및 통계 용어 (0)	2020.11.27

관련글

티스토리툴바