데이터분석(4)
-
시계열 및 통계 용어
시계열 및 통계적 용어 : 분석 진행에 앞서 기초적인 용어를 먼저 학습해보자 1. 데이터 관점에 따른 분류 : 시계열 분석 Target data 1) 시계열종단면 : 다수시점 + 특정독립변수 2) 시계열횡단면 : 다수시점 + 다수독립변수(null 존재 가능) 3) 패널 데이터 : 다수시점 + 다수독립변수 (null 존재 불가) : 시계열분석 시간축 1) 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외) 2. 데이터 변수구분 및 개념정리 - 원자료(Raw Data) : 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 자료 - 변수(Variable) : 정보가 수집되는 특정한 개체나 대상 - 질적 변수 : 분류를 위하여 단일한 용어로 정의되는 변수 - 양적 변수 : 양의 크기를 ..
2020.11.27 -
세상에서 가장 쉬운 통계학 입문_기초 통계
세상에서 가장 쉬운 통계학 입문 데이터 분석 직무 역량을 기르기 위해 가장 먼저 선택한 과목은 '통계학'이였다. 이 책은 내가 '통계학'을 공부하는데 있어서 가장 도움됐었다. 기초 통계학을 공부하고 싶은 사람이 있다면 나는 이책을 추천하고 싶다. 이 책의 핵심은 간단하다. 중학교 수학 지식만 알고 있다면, 사칙 연산 + 제곱 + 루트 만으로 통계학의 기초를 잡아준다. 만약 당신이 수학을 포기했던 문과라도,,, 너도 할 수 있어 권장 독자 1. 통계학을 처음 배우는 사람 2. 통계학을 다시 공부하고 싶은 사람 3. 벌써 몇 번이나 통꼐학을 공부하다 포기해서 아직도 통계를 모르겠다는 사람 4. 지금 정말 남보다 뒤쳐져 있는 사람 주요 내용은 다음과 같다. 1.통계학은 '기술 통계'와 '추리 통계'로 나눠져 ..
2020.09.14 -
M5 Forecasting_Kaggle(3/3부)
M5 Forecasting 대회 종료 1) 대회 결과 : 상위 5% 이내 목표를 세웠지만 결과는 참담했다. : 1,946위로 상위 16%에 해당하는 성적으로 마무리, 쉐이크업으로 인해 성적이 1,787등이나 내렸갔다. : 아직 공부할게 많이 남아있다는 것에 위안 삼으며 이번 대회를 마무리 짓고자 한다. 2) LSTM 모델 코드 : 내가 초기 M5에 사용했었던 LSTM 모델 코드(pytorch)는 다음과 같다. : Many to Many, Bidirectional 을 사용 : 초기 모델은 연산량이 많았던 모델이였기 때문에 학습 시간이 많이 소요됨 : 임베딩층을 쓰지 않고 hidden layers 개수를 줄여도 성능의 큰 차이는 없다. class TimeDistributed(nn.Module): def __..
2020.07.05 -
M5 Forecasting_Kaggle (2/3부)
M5 Forecasting 대회 진행 2020년 06월 M5 Forecasting 대회 종료까지 약 일주일이 남은 시점 지금까지 대회를 참가하여 배운 내용을 기록하고자 한다. 매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다. 참가한 대회 정보는 아래와 같다. https://www.kaggle.com/c/m5-forecasting-accuracy M5 Forecasting - Accuracy Estimate the unit sales of Walmart retail goods www.kaggle.com 1) 시계열 데이터에 대한 이해 : 우리가 다루고 있는 현실 세계에서 발생되고 있는 데이터는 대부분 시계열 데이터이며 동적인 개념으로 데이터를 바라봐야 함 : 현실 세계 시계열 데이터..
2020.06.24