Data Science(35)
-
시계열 데이터 전처리1
시계열 데이터패턴 : 시계열 데이터 분석에 있어 파생변수를 만드는 것은 가장 중요하고 시간이 많이 걸리는 작업 : 변수 생성시 주의해야 할 2가지 미래의 실제 종속 변수 예측값이 어떤 독립/종속 변수의 FE에 의해 효과가 있을지 단정지을 수 없음 독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수 예측에 오류를 야기할 수 있음 1. 시계열 데이터패턴 추출 : 시계열 파생변수 종류 빈도(Frequncy) : 계절성 패턴(Seasonality)이 나타나기 전까지 사람이 정의 추세(Trend) : 시계열이 시간에 따라 증가, 감소 또는 일정 수준을 유지하는 경우 계절성(Seasonaliy) : 일정한 빈도로 주기적으로 반복되는 패턴 주기(Cycle) : 일정하지 않은 빈도로 발생하는 패턴 더미변수..
2020.12.10 -
가설 검정
1. 가설검정 : 대부분의 분석은 '누구나' 할 수 있는 '비교(A/B Test)'를 기반으로 하며, 일상생활부터 연구논문까지 다양 : '설명력'과 '(모델)복잡도'는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수 1.1 가설설정 조건 상호 배반적 : 나의주장(대립가설)과 대중주장(귀무가설)은 모호함이 없이 독립적이어야 하며 더하면 다른주장은 없어야 함 증명 가능성 : 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함 구체적 : 충분히 구별되고 실현가능한 표현으로 정의되어야 함 1.2 가설검정 관련 용어 모집단 : 연구 대상이 되는 전체 집단 표본 : 모집단에서 선택된 일부 집단 전수조사 : 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 ..
2020.12.02 -
시계열 및 통계 용어
시계열 및 통계적 용어 : 분석 진행에 앞서 기초적인 용어를 먼저 학습해보자 1. 데이터 관점에 따른 분류 : 시계열 분석 Target data 1) 시계열종단면 : 다수시점 + 특정독립변수 2) 시계열횡단면 : 다수시점 + 다수독립변수(null 존재 가능) 3) 패널 데이터 : 다수시점 + 다수독립변수 (null 존재 불가) : 시계열분석 시간축 1) 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외) 2. 데이터 변수구분 및 개념정리 - 원자료(Raw Data) : 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 자료 - 변수(Variable) : 정보가 수집되는 특정한 개체나 대상 - 질적 변수 : 분류를 위하여 단일한 용어로 정의되는 변수 - 양적 변수 : 양의 크기를 ..
2020.11.27 -
ALGORITHMIC MARKETING_알고리즘 마케팅
ALGORITHMIC MARKETING_알고리즘 마케팅_ (1) 프로모션과 광고 책과 영상으로 공부한 ML/DL을 현업에 적용하고 문제를 해결하는데 항상 어려움을 많이 느꼈다. 어떻게 문제를 정의하고 이를 최적화 해야하는지 참고할 수 있는 자료가 많이 필요하다고 느끼게 되었고 한참 책을 찾아보던 중 ALGORITMIC MARKETING(알고리즘 마케팅)을 구입했다. 앞으로 책 리뷰는 해당 책에서 관심있게 봤던 주제를 중심으로 하나씩 풀어보고자 한다. 프로모션 : 홍보·판촉(판매 촉진) 활동. 제품의 광고나 이벤트 기획 등을 통해 고객이 상품을 사도록 유도하는 행위이다. (나무 위키) 광고 :광고는 대중을 대상으로 한 공개적인 알림 행위의 총칭이다 (나무 위키) 프로모션과 광고의 목적은 다음과 같다. 1...
2020.11.18 -
Auto ML PyCaret을 활용한 Kaggle 문제 풀기
Auto ML PyCaret 평소 Auto ML에 관심만 있었지 실제로 사용해보지 못했는데 연휴 동안 살펴보면서 Auto ML 패키지 중 접근성이 좋은 PyCaret을 소개해보고자 한다. pycaret.org/ Home - PyCaret Data Preparation in PyCaret Whether its imputing missing values, transforming categorical data, feature engineering or even hyperparameter tuning of models, PyCaret automates all of it. It orchestrates the entire pipeline no matter how complex it is. pycaret.org Au..
2020.10.04 -
세상에서 가장 쉬운 통계학 입문_기초 통계
세상에서 가장 쉬운 통계학 입문 데이터 분석 직무 역량을 기르기 위해 가장 먼저 선택한 과목은 '통계학'이였다. 이 책은 내가 '통계학'을 공부하는데 있어서 가장 도움됐었다. 기초 통계학을 공부하고 싶은 사람이 있다면 나는 이책을 추천하고 싶다. 이 책의 핵심은 간단하다. 중학교 수학 지식만 알고 있다면, 사칙 연산 + 제곱 + 루트 만으로 통계학의 기초를 잡아준다. 만약 당신이 수학을 포기했던 문과라도,,, 너도 할 수 있어 권장 독자 1. 통계학을 처음 배우는 사람 2. 통계학을 다시 공부하고 싶은 사람 3. 벌써 몇 번이나 통꼐학을 공부하다 포기해서 아직도 통계를 모르겠다는 사람 4. 지금 정말 남보다 뒤쳐져 있는 사람 주요 내용은 다음과 같다. 1.통계학은 '기술 통계'와 '추리 통계'로 나눠져 ..
2020.09.14