시계열(17)
-
잔차 진단
분석 종료를 위한 잔차 진단 : 잔차진단을 위한 통계적 방법을 공부해보자 1. 백색잡음(White Noise) : 백색잡음(Withe Noise)란 패턴이 남아있지 않고 무작위로 야기되는 잡음 : 백색잡음(White Noise)는 2가지 속성을 만족해야 하며 하나라도 만족하지 못하면 모델이 개선의 여지가 있음을 의미함 잔차들은 정규분포이며, 평균 0과 일정한 분산을 가져야 함 잔차들이 시간의 흐름에 따라 상관성이 없어야 함 : 시계열 예측 모델이 실제 현상의 트렌드와 주기를 잘 반영할수록 잔차의 변동이 작아지고 이를 바탕으로 모델 개선 여부를 파악 : 잔차 진단의 결과는 주로 시각화로 확인이 가능하며 추세 및 주기 중 어떤 것을 건드려야할지 의사결정이 됨 2. 진단 방법 1) 정상성 테스트 Augment..
2020.12.14 -
시계열 데이터 전처리1
시계열 데이터패턴 : 시계열 데이터 분석에 있어 파생변수를 만드는 것은 가장 중요하고 시간이 많이 걸리는 작업 : 변수 생성시 주의해야 할 2가지 미래의 실제 종속 변수 예측값이 어떤 독립/종속 변수의 FE에 의해 효과가 있을지 단정지을 수 없음 독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수 예측에 오류를 야기할 수 있음 1. 시계열 데이터패턴 추출 : 시계열 파생변수 종류 빈도(Frequncy) : 계절성 패턴(Seasonality)이 나타나기 전까지 사람이 정의 추세(Trend) : 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우 계절성(Seasonaliy) : 일정한 빈도로 주기적으로 반복되는 패턴 주기(Cycle) : 일정하지 않은 빈도로 발생하는 패턴 더미변수..
2020.12.10 -
시계열 및 통계 용어
시계열 및 통계적 용어 : 분석 진행에 앞서 기초적인 용어를 먼저 학습해보자 1. 데이터 관점에 따른 분류 : 시계열 분석 Target data 1) 시계열종단면 : 다수시점 + 특정독립변수 2) 시계열횡단면 : 다수시점 + 다수독립변수(null 존재 가능) 3) 패널 데이터 : 다수시점 + 다수독립변수 (null 존재 불가) : 시계열분석 시간축 1) 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외) 2. 데이터 변수구분 및 개념정리 - 원자료(Raw Data) : 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 자료 - 변수(Variable) : 정보가 수집되는 특정한 개체나 대상 - 질적 변수 : 분류를 위하여 단일한 용어로 정의되는 변수 - 양적 변수 : 양의 크기를 ..
2020.11.27 -
M5 Forecasting_Kaggle(3/3부)
M5 Forecasting 대회 종료 1) 대회 결과 : 상위 5% 이내 목표를 세웠지만 결과는 참담했다. : 1,946위로 상위 16%에 해당하는 성적으로 마무리, 쉐이크업으로 인해 성적이 1,787등이나 내렸갔다. : 아직 공부할게 많이 남아있다는 것에 위안 삼으며 이번 대회를 마무리 짓고자 한다. 2) LSTM 모델 코드 : 내가 초기 M5에 사용했었던 LSTM 모델 코드(pytorch)는 다음과 같다. : Many to Many, Bidirectional 을 사용 : 초기 모델은 연산량이 많았던 모델이였기 때문에 학습 시간이 많이 소요됨 : 임베딩층을 쓰지 않고 hidden layers 개수를 줄여도 성능의 큰 차이는 없다. class TimeDistributed(nn.Module): def __..
2020.07.05 -
M5 Forecasting_Kaggle (2/3부)
M5 Forecasting 대회 진행 2020년 06월 M5 Forecasting 대회 종료까지 약 일주일이 남은 시점 지금까지 대회를 참가하여 배운 내용을 기록하고자 한다. 매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다. 참가한 대회 정보는 아래와 같다. https://www.kaggle.com/c/m5-forecasting-accuracy M5 Forecasting - Accuracy Estimate the unit sales of Walmart retail goods www.kaggle.com 1) 시계열 데이터에 대한 이해 : 우리가 다루고 있는 현실 세계에서 발생되고 있는 데이터는 대부분 시계열 데이터이며 동적인 개념으로 데이터를 바라봐야 함 : 현실 세계 시계열 데이터..
2020.06.24