시계열 및 통계 용어

2020. 11. 27. 12:12Data Science/02_Time Series Analysis

728x90

 

시계열 및 통계적 용어

 

: 분석 진행에 앞서 기초적인 용어를 먼저 학습해보자

 

 

1. 데이터 관점에 따른 분류

 

: 시계열 분석 Target data 

1) 시계열종단면 : 다수시점 + 특정독립변수   

2) 시계열횡단면 : 다수시점 + 다수독립변수(null 존재 가능)   

3) 패널 데이터  : 다수시점 + 다수독립변수 (null 존재 불가) 

 

: 시계열분석 시간축  

1) 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외)

 


횡단면 설명 자료


 

 

2. 데이터 변수구분 및 개념정리

 

 - 원자료(Raw Data) : 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 자료

 - 변수(Variable) : 정보가 수집되는 특정한 개체나 대상

 - 질적 변수 : 분류를 위하여 단일한 용어로 정의되는 변수

 - 양적 변수 : 양의 크기를 수량으로 표시되는 변수

 - 독립 변수 : 다른 변수에 영향을 미치는 변수

 - 종속 변수 : 다른 변수에 영향을 받는 변수

 

 

3. 통계 용어

 

: 중심 통계량 : 데이터의 중심 경향을 나타내는 수치

  1) 평균(산술/기하/조화/가중) : 표본데이터의 중심 무게

  2) 중앙값 : 순서를 가진 표본데이터의 가운데(50%)에 위치한 값

  3) 최빈값 : 표본데이터 중 가장 빈번한 값

 


대표값


 

: 변동 통계량 : 데이터의 변동성을 나타내는 수치

1) 범위(RANGE) : 최대값과 최소값의 차이

2) 편차(DEV) : 관측값과 평균의 차이

3) 분산(VAR) : 편차 제곱의 합을 데이터의 수로 나눈 값

4) 표준편차(STD) : SQRT(분산)

 


범위


 

: 형태 통계량 : 데이터의 분포형태와 왜곡을 나타내는 수치

1) 왜도(Skewness) : 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도

2) 첨도(Kurtosis) : 뾰족함 정도

3) 이상치(Outlier) : 오류로 판단하는 값이지만 기준이 불명확

 


왜도, 첨도, 이상치


 

: 관계 통계량 : 데이터간의 관계를 나타내는 수치

1) 상관관계 : A변수의 변화와 B변수의 변화 방향의 (선형적) 유사성

2) 인과관계 : A변수와 B변수 중 하나는 원인이 하나는 결과가 되는 관계성

 


상관관계와 인과관계


 

 

: 통계를 이용한 조작 : 특정하게 skew 된 sampl 수집, 임의로 outlier를 정해서 값 변경 가능하다.

 

728x90

'Data Science > 02_Time Series Analysis' 카테고리의 다른 글

시계열 데이터 전처리3  (0) 2020.12.16
시계열 데이터 전처리2  (0) 2020.12.15
잔차 진단  (0) 2020.12.14
시계열 데이터 전처리1  (0) 2020.12.10
가설 검정  (0) 2020.12.02