시계열 데이터 전처리(3)
-
시계열 데이터 전처리(Denoising Method)
시계열 데이터를 분석하는 과정에서 시간 흐름에 따라 변동이 크거나 일정하지 않을 경우 비정상성(Non-Stationarity)을 지니게 되고 이를 전처리 없이 머신러닝 알고리즘에 학습할 경우 단순 후행 예측, 성능 저하, 잘못된 추론 등의 문제를 야기시킬 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연 값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫 번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관..
2022.02.13 -
시계열 데이터 전처리2
시계열 데이터 전처리시 유의사항 : 시계열 데이터 분석에 앞서 데이터를 정제할 때 숙지해야 하는 점을 정리하고자 함 1. 시간영역(해상도) 선택 : 시계열이 분석효과에 도움이 될 시간영역(해상도)을 분석가의 경험과 지식을 기반으로 선택해야 함 : 일반적으로 예측 정확성이 높은 시간영역을 선택하거나 예측 결과를 다시 학습으로 사용하여 연속적으로 사용함 : 연간 단위 비즈니스 목표 예측을 예시로 월별 또는 분기별 데이터를 사용하면 연간 데이터보다 나은 예측이 가능할 것 월/분기별 예측치를 연간으로 환산시 오류가 늘어날 것 같지만 실제로븐 반대의 경우가 많음 너무 세분화된 시간영역을 사용할 시 오류가 증가될 수 있음 2. 높은 정확도 or 높은 에러 : 시계열 데이터/분석은 높은 정확도를 낳거나 높은 에러를 ..
2020.12.15 -
시계열 데이터 전처리1
시계열 데이터패턴 : 시계열 데이터 분석에 있어 파생변수를 만드는 것은 가장 중요하고 시간이 많이 걸리는 작업 : 변수 생성시 주의해야 할 2가지 미래의 실제 종속 변수 예측값이 어떤 독립/종속 변수의 FE에 의해 효과가 있을지 단정지을 수 없음 독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수 예측에 오류를 야기할 수 있음 1. 시계열 데이터패턴 추출 : 시계열 파생변수 종류 빈도(Frequncy) : 계절성 패턴(Seasonality)이 나타나기 전까지 사람이 정의 추세(Trend) : 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우 계절성(Seasonaliy) : 일정한 빈도로 주기적으로 반복되는 패턴 주기(Cycle) : 일정하지 않은 빈도로 발생하는 패턴 더미변수..
2020.12.10