시계열 데이터 전처리2

시계열 데이터 전처리2

2020. 12. 15. 18:59ㆍData Science/02_Time Series Analysis

: 시계열 데이터 분석에 앞서 데이터를 정제할 때 숙지해야 하는 점을 정리하고자 함

: 시계열이 분석효과에 도움이 될 시간영역(해상도)을 분석가의 경험과 지식을 기반으로 선택해야 함

: 일반적으로 예측 정확성이 높은 시간영역을 선택하거나 예측 결과를 다시 학습으로 사용하여 연속적으로 사용함

: 연간 단위 비즈니스 목표 예측을 예시로

: 시계열 데이터/분석은 높은 정확도를 낳거나 높은 에러를 발생시킴

: 높은 정확도(High Accuracy)는 과거 패턴이 미래에도 그대로 유지가 된다면 예측 정확도가 높아짐

: 높은 에러(High Error)는 패턴이 점차적으로 또는 갑자기 변경되면 예측값은 실제값에서 크게 벗어날 수 있음

: 수천/수백만/수십억 데이터를 기계학습에 사용할 수 있지만 시계열로 데이터를 정리하면 데이터 감소 발생 가능

: 모든 시간범위가 예측성능에 도움되지 않을 수 있기에 특정기간의 시간영영 분석만 필요할 수도 있음

: 미래의 시간패턴을 미리 반영하는것은 비현실적이며 이는 과적합(Overfitting)을 유발함

: 이는 기계학습에서 Test Set을 절대 사용하면 안되는 이유이며, 일반화 성능을 하락시키는 주된 원인이 됨

: 분석 결과 안정성을 확보하기 위해서 조건수를 감소시켜야 함

: 조건수를 줄이기 위해 일반적으로 2가지 방법을 사용함

스케일링(Scaling) : pc메모리를 고려하여 오버플로우나 언더플로우를 방지하고 독립 변수의 공분산 행렬 조건수를 감소시킴
- Standard Scaler : 평균을 제외하고 표준편차로 나누어 변환(정규 분포를 가정시 사용)
- Min-Max Scaler : 가장 많이 활요되며 최소~최대 값이 0~1 또는 -1~1 사이로 변환(정규 분포 가정을 안함)
- Robust Scaler : 최소-최대 스케일러와 유사하지만 최소/최대 대신 IQR중 1분위수와 3분위수를 사용하여 변환
- Normakuzer : 각 변수들 전체 n개 모든 변수들의 크기들로 나누어서 변환, 모든 변수들의 값은 원점으로 부터 반지름 1 이내

다중공선성(Multicollinearity) 제거 : 독립변수의 일부가 다른 독립변수들의 조합으로 표현될 수 있는 경우 등 발생
- Variance Inflation Factor(VIF) 변수 선택 : 의존성이 낮은 변수 선택 혹은 높은 독립변수를 제거
- Principal Component Analysis(PCA) 변수 선택 : 서로 독립인 차원의 독립변수 행렬로 변환시키는 알고리즘

정규화(Regularization)/배깅(Bagging)/부스팅(Boosting) (0)	2020.12.17
시계열 데이터 전처리3 (0)	2020.12.16
잔차 진단 (0)	2020.12.14
시계열 데이터 전처리1 (0)	2020.12.10
가설 검정 (0)	2020.12.02

Better Than,