2020. 11. 27. 12:12ㆍData Science/02_Time Series Analysis
시계열 및 통계적 용어
: 분석 진행에 앞서 기초적인 용어를 먼저 학습해보자
1. 데이터 관점에 따른 분류
: 시계열 분석 Target data
1) 시계열종단면 : 다수시점 + 특정독립변수
2) 시계열횡단면 : 다수시점 + 다수독립변수(null 존재 가능)
3) 패널 데이터 : 다수시점 + 다수독립변수 (null 존재 불가)
: 시계열분석 시간축
1) 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외)
2. 데이터 변수구분 및 개념정리
- 원자료(Raw Data) : 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 자료
- 변수(Variable) : 정보가 수집되는 특정한 개체나 대상
- 질적 변수 : 분류를 위하여 단일한 용어로 정의되는 변수
- 양적 변수 : 양의 크기를 수량으로 표시되는 변수
- 독립 변수 : 다른 변수에 영향을 미치는 변수
- 종속 변수 : 다른 변수에 영향을 받는 변수
3. 통계 용어
: 중심 통계량 : 데이터의 중심 경향을 나타내는 수치
1) 평균(산술/기하/조화/가중) : 표본데이터의 중심 무게
2) 중앙값 : 순서를 가진 표본데이터의 가운데(50%)에 위치한 값
3) 최빈값 : 표본데이터 중 가장 빈번한 값
: 변동 통계량 : 데이터의 변동성을 나타내는 수치
1) 범위(RANGE) : 최대값과 최소값의 차이
2) 편차(DEV) : 관측값과 평균의 차이
3) 분산(VAR) : 편차 제곱의 합을 데이터의 수로 나눈 값
4) 표준편차(STD) : SQRT(분산)
: 형태 통계량 : 데이터의 분포형태와 왜곡을 나타내는 수치
1) 왜도(Skewness) : 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도
2) 첨도(Kurtosis) : 뾰족함 정도
3) 이상치(Outlier) : 오류로 판단하는 값이지만 기준이 불명확
: 관계 통계량 : 데이터간의 관계를 나타내는 수치
1) 상관관계 : A변수의 변화와 B변수의 변화 방향의 (선형적) 유사성
2) 인과관계 : A변수와 B변수 중 하나는 원인이 하나는 결과가 되는 관계성
: 통계를 이용한 조작 : 특정하게 skew 된 sampl 수집, 임의로 outlier를 정해서 값 변경 가능하다.
'Data Science > 02_Time Series Analysis' 카테고리의 다른 글
시계열 데이터 전처리3 (0) | 2020.12.16 |
---|---|
시계열 데이터 전처리2 (0) | 2020.12.15 |
잔차 진단 (0) | 2020.12.14 |
시계열 데이터 전처리1 (0) | 2020.12.10 |
가설 검정 (0) | 2020.12.02 |