Data Science/02_Time Series Analysis(15)
-
시계열 데이터 이상 탐지(Anomaly Detection)
시계열 데이터 이상 탐지는 시간 흐름에 따른 평균과 분산을 고려하는 방법론을 주로 사용합니다. 예를 들어 설명하면, 위 그림과 같이 월별 전력사용량에서 anomaly가 의심되는 두 지점(p1, p2)을 살펴보면 여름에 높은 전력사용량이 의심되는 p1이 감소하는 계절의 p2보다 anomaly일 가능성이 높습니다. 그래서 시계열 데이터의 경우 context를 고려한 이상 탐지 모델을 설계해야 비용 절감과 좋은 성능의 모델을 만들 수 있습니다. Anomaly Anomaly란 일반적인 데이터와는 다른 메커니즘에 의해 발생된 데이터(1980, Hawkins) 혹은 확률 밀도가 낮은 빈도의 데이터(2006, Harmeling) 등 다양하지만 일반적이 않은 데이터라고 정의됩니다. 그리고 Anomaly는 주가 급듭 신..
2022.05.23 -
시계열 데이터 예측 모델링(Stacked Hybrids)
시계열 데이터는 패턴이 모두 동일하지 않으며 특성에 따라 매우 다양합니다. 도메인 지식이 있는 분야라면 이를 해석하고 분석하는데 큰 어려움이 없겠지만 그렇지 않다면 많은 시간을 소비하게 되고 정확한 예측 모델링이 어렵습니다. 이때 시계열 성분은 데이터 이해와 올바른 모델링을 하기 위한 가이드라인을 제시해줍니다. TIME SERIES COMPONENT 시계열 데이터 성분은 추세(Trend), 계절성(Seasonality), 주기(Cycle), 잔차(Residual)로 이루어져 있습니다. 우선 추세란 단기~중기로 증가하거나 감소하는 패턴을 의미하며 주로 제품의 생명주기와 연관 지어 살펴볼 수 있습니다. 다음으로 계절성은 일, 주, 월, 년 단위로 변동이 반복적으로 관측되는 패턴을 의미하며 자연 현상이나 사회..
2022.03.26 -
시계열 데이터 전처리(Denoising Method)
시계열 데이터를 분석하는 과정에서 시간 흐름에 따라 변동이 크거나 일정하지 않을 경우 비정상성(Non-Stationarity)을 지니게 되고 이를 전처리 없이 머신러닝 알고리즘에 학습할 경우 단순 후행 예측, 성능 저하, 잘못된 추론 등의 문제를 야기시킬 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연 값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫 번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관..
2022.02.13 -
시계열 데이터 전처리(Encoding Time Step Features)
시계열 데이터를 분석하는 과정에서 주기적 성질을 지니고 있는 데이터들을 빈번히 발견할 수 있습니다. 데이터가 주기적 성질을 지니고 있다면 사인함수, 코사인함수와 같은 삼각함수의 합으로 표현이 가능하고 이를 통해 데이터를 다른 관점에서 바라볼 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관측값이 주기적 성질..
2022.01.31 -
다변량 선형 확률과정(VAR/Granger Causality/Cointegration)
다변량 선형 확률과정(VAR/Granger Causality/Cointegration) : 다변량 선형 확률과정을 공부하고자 함. : 해당 모델들은 결국 AR 모형을 번갈아 사용, X인자 추가, 적분을 활용한 내용들로 구성 됨. 1) 벡터자기회귀 모형(VAR) - 정상성 데이터 입력(차분 필요) 2) 그래인저 인과관계(Granger Causality) - 정상성 데이터 입력(차분 필요) 3) 공적분(Cointegration) - 비정상성 데이터 입력 : 다변량 선형 확률과정 복습을 위해 주식 데이터를 활용하기로 함 1. 벡터자기회귀 모형(VAR) : 종속 변수와 독립 변수는 상호 영향을 받는 존재. : 두 변수들 중 어떤 변수가 종속변수로 적합한지에 대한 문제를 해결하기 위해 VAR을 활용. import..
2021.01.07 -
시계열 데이터 분석 싸이클
시계열 데이터 분석 싸이클(Time Series Analysis Cycle) : 지금까지 공부해온 선형확률과정의 분석 싸이클을 다시 살펴보고자 함 1. 비정상 과정에서 정상 과정 추출 : 결정론적 추세나 확률적 추세가 있는지 확인 결정론적 추세는 회귀분석, 다항식 등으로 모형화 후 이를 분리 확률적 추세인 경우, 즉 ARIMA 모형인 경우에는 ADF(Augmented Dickey Fuller) 검정을 사용하여 적분차수(Order of Integration)을 알아내서 차분 2. 정규성 확인 : 정규성 검정을 통해 자료의 분포가 정규 분포인지 확인 일반 선형 확률 과정인 경우에는 전체 시계열이 가우시안 백색 잡음의 선형 조합으로 이루어지기 때문에 시계열 자체도 가우시안 정규 분포 ARIMA 모형 등의 일반..
2021.01.04