Data Science/02_Time Series Analysis(15)
-
시계열 알고리즘_ARIMA/SARIMA
Time Series Analysis Method : 적분 선형확률과정 중 ARIMA, SARIMA 알고리즘을 살펴보기로 함 1. ARIMA(Auto-Regressive Integrated Moving Average) : ARIMA(p,d,q)란 1이상의 차분이 적용된 ΔdYt=(1−L)dYt가 알고리즘의 차수(p and q)가 유한한AR(p)와 MA(q)의 선형조합 비정상성인 시계열 데이터 Yt를 차분한 결과로 만들어진 ΔYt=Yt−Yt−1=(1−L)Yt가 정상성인 데이터이고 ARMA 모형을 따르면 원래의 Yt를 ARIMA 모형이라고 함 d≥1:* Yt는 비정상성 시계열 데이터(단위근을 갖음) d번 차분한 후 시계열 ΔdYt가 정상성인 데이터이고 ARMA(p,q) 모형을 따른다면 적분차수(Order o..
2020.12.21 -
시계열 알고리즘_AR/MA/ARMA
Time Series Analysis Method : 시계열 데이터 분석 방법 중 가장 기초적인 단순 선형 확률과정 알고리즘을 살펴봄 1. MA(Moving Average) : MA(q) 알고리즘 차수(q)가 유한한 가우시안 백색잡음과정의 선형조합 : Exponential Smoothing 내 Moving Average Smoothing은 과거의 Trend-Cycle을 추정하기 위함이고, MA는 미래 값을 예측하기 위함 : 움직임 특성 Stationarity Condition of MA(1): |𝜃1||𝜃2|𝜃1+𝜃2>−1θ1+θ2>−1, 𝜃1−𝜃2MA모형을 사용하면 차수가 ∞로 감 𝜙1=0: 𝑌𝑡Yt는 백색잡음 𝜙1𝜙1>0: 시차가 증가하면서 자기상관계수는 지수적으로 감소 𝜙1=1: 𝑌𝑡Yt는 비정상성..
2020.12.18 -
정규화(Regularization)/배깅(Bagging)/부스팅(Boosting)
모델의 성능을 높히는 방법 : 모델의 성능을 향상시키기 위해 정규화와 앙상블(배깅/부스팅) 방법을 살펴봄 1. 정규화(Regularization) : 선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 구성되는 것을 방지해주는 방법 : 과최적화는 계수 크기를 과도하게 증가 하는 경향이 있기에, 정규화 방법에서의 제약조건은 일반적으로 계수의 크기를 제한함 : 정규화 방식은 릿지(Ridge) 와 라쏘(Lasso) 2가지 구분됨 릿지(Ridge), L2 규제 𝜆λ=0: 일반적인 선형 회귀모형(OLS) 𝜆λ를 크게 두면 정규화(패널티) 정도가 커지기 때문에 가중치(𝛽𝑖βi)의 값들이 커질 수 없음(작아짐) 𝜆λ를 작게 두면 정규화(패널티) 정도가 작아 지기 때문에 가중치(𝛽𝑖βi)의 값..
2020.12.17 -
시계열 데이터 전처리3
종속변수의 정상성 이해하기 : 시계열 데이터 전처리의 마지막으로 종속변수의 정상성을 살펴봄 1. 정상성 : 시간이 흐름에 따라 "통계적 특성(Stastistical Properties)"이 변하지 않음을 정상이이 있다라고 표현 : "통계적 특성(Stastistical Properties)"이란 모멘텀이라 해서 수학적으로 n차 미분했을 때 통계적 특징(평균, 분산, 공분산 등) 2. 약정상 : 일반적인 정상성을 의미함 : 비 수학적 이해 𝑋𝑖1Xi1, 𝑋𝑖2Xi2, 𝑋𝑖3Xi3, ... have the same distribution. (𝑋𝑖1,𝑋𝑖3)(Xi1,Xi3), (𝑋𝑖5,𝑋𝑖7)(Xi5,Xi7), (𝑋𝑖9,𝑋𝑖11)(Xi9,Xi11), ... have the same joint distributi..
2020.12.16 -
시계열 데이터 전처리2
시계열 데이터 전처리시 유의사항 : 시계열 데이터 분석에 앞서 데이터를 정제할 때 숙지해야 하는 점을 정리하고자 함 1. 시간영역(해상도) 선택 : 시계열이 분석효과에 도움이 될 시간영역(해상도)을 분석가의 경험과 지식을 기반으로 선택해야 함 : 일반적으로 예측 정확성이 높은 시간영역을 선택하거나 예측 결과를 다시 학습으로 사용하여 연속적으로 사용함 : 연간 단위 비즈니스 목표 예측을 예시로 월별 또는 분기별 데이터를 사용하면 연간 데이터보다 나은 예측이 가능할 것 월/분기별 예측치를 연간으로 환산시 오류가 늘어날 것 같지만 실제로븐 반대의 경우가 많음 너무 세분화된 시간영역을 사용할 시 오류가 증가될 수 있음 2. 높은 정확도 or 높은 에러 : 시계열 데이터/분석은 높은 정확도를 낳거나 높은 에러를 ..
2020.12.15 -
잔차 진단
분석 종료를 위한 잔차 진단 : 잔차진단을 위한 통계적 방법을 공부해보자 1. 백색잡음(White Noise) : 백색잡음(Withe Noise)란 패턴이 남아있지 않고 무작위로 야기되는 잡음 : 백색잡음(White Noise)는 2가지 속성을 만족해야 하며 하나라도 만족하지 못하면 모델이 개선의 여지가 있음을 의미함 잔차들은 정규분포이며, 평균 0과 일정한 분산을 가져야 함 잔차들이 시간의 흐름에 따라 상관성이 없어야 함 : 시계열 예측 모델이 실제 현상의 트렌드와 주기를 잘 반영할수록 잔차의 변동이 작아지고 이를 바탕으로 모델 개선 여부를 파악 : 잔차 진단의 결과는 주로 시각화로 확인이 가능하며 추세 및 주기 중 어떤 것을 건드려야할지 의사결정이 됨 2. 진단 방법 1) 정상성 테스트 Augment..
2020.12.14