Data Science/02_Time Series Analysis(15)
-
시계열 데이터 전처리1
시계열 데이터패턴 : 시계열 데이터 분석에 있어 파생변수를 만드는 것은 가장 중요하고 시간이 많이 걸리는 작업 : 변수 생성시 주의해야 할 2가지 미래의 실제 종속 변수 예측값이 어떤 독립/종속 변수의 FE에 의해 효과가 있을지 단정지을 수 없음 독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수 예측에 오류를 야기할 수 있음 1. 시계열 데이터패턴 추출 : 시계열 파생변수 종류 빈도(Frequncy) : 계절성 패턴(Seasonality)이 나타나기 전까지 사람이 정의 추세(Trend) : 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우 계절성(Seasonaliy) : 일정한 빈도로 주기적으로 반복되는 패턴 주기(Cycle) : 일정하지 않은 빈도로 발생하는 패턴 더미변수..
2020.12.10 -
가설 검정
1. 가설검정 : 대부분의 분석은 '누구나' 할 수 있는 '비교(A/B Test)'를 기반으로 하며, 일상생활부터 연구논문까지 다양 : '설명력'과 '(모델)복잡도'는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수 1.1 가설설정 조건 상호 배반적 : 나의주장(대립가설)과 대중주장(귀무가설)은 모호함이 없이 독립적이어야 하며 더하면 다른주장은 없어야 함 증명 가능성 : 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함 구체적 : 충분히 구별되고 실현가능한 표현으로 정의되어야 함 1.2 가설검정 관련 용어 모집단 : 연구 대상이 되는 전체 집단 표본 : 모집단에서 선택된 일부 집단 전수조사 : 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 ..
2020.12.02 -
시계열 및 통계 용어
시계열 및 통계적 용어 : 분석 진행에 앞서 기초적인 용어를 먼저 학습해보자 1. 데이터 관점에 따른 분류 : 시계열 분석 Target data 1) 시계열종단면 : 다수시점 + 특정독립변수 2) 시계열횡단면 : 다수시점 + 다수독립변수(null 존재 가능) 3) 패널 데이터 : 다수시점 + 다수독립변수 (null 존재 불가) : 시계열분석 시간축 1) 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외) 2. 데이터 변수구분 및 개념정리 - 원자료(Raw Data) : 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 자료 - 변수(Variable) : 정보가 수집되는 특정한 개체나 대상 - 질적 변수 : 분류를 위하여 단일한 용어로 정의되는 변수 - 양적 변수 : 양의 크기를 ..
2020.11.27