분류(37)
-
Auto ML PyCaret을 활용한 Kaggle 문제 풀기
Auto ML PyCaret 평소 Auto ML에 관심만 있었지 실제로 사용해보지 못했는데 연휴 동안 살펴보면서 Auto ML 패키지 중 접근성이 좋은 PyCaret을 소개해보고자 한다. pycaret.org/ Home - PyCaret Data Preparation in PyCaret Whether its imputing missing values, transforming categorical data, feature engineering or even hyperparameter tuning of models, PyCaret automates all of it. It orchestrates the entire pipeline no matter how complex it is. pycaret.org Au..
2020.10.04 -
세상에서 가장 쉬운 통계학 입문_기초 통계
세상에서 가장 쉬운 통계학 입문 데이터 분석 직무 역량을 기르기 위해 가장 먼저 선택한 과목은 '통계학'이였다. 이 책은 내가 '통계학'을 공부하는데 있어서 가장 도움됐었다. 기초 통계학을 공부하고 싶은 사람이 있다면 나는 이책을 추천하고 싶다. 이 책의 핵심은 간단하다. 중학교 수학 지식만 알고 있다면, 사칙 연산 + 제곱 + 루트 만으로 통계학의 기초를 잡아준다. 만약 당신이 수학을 포기했던 문과라도,,, 너도 할 수 있어 권장 독자 1. 통계학을 처음 배우는 사람 2. 통계학을 다시 공부하고 싶은 사람 3. 벌써 몇 번이나 통꼐학을 공부하다 포기해서 아직도 통계를 모르겠다는 사람 4. 지금 정말 남보다 뒤쳐져 있는 사람 주요 내용은 다음과 같다. 1.통계학은 '기술 통계'와 '추리 통계'로 나눠져 ..
2020.09.14 -
M5 Forecasting_Kaggle(3/3부)
M5 Forecasting 대회 종료 1) 대회 결과 : 상위 5% 이내 목표를 세웠지만 결과는 참담했다. : 1,946위로 상위 16%에 해당하는 성적으로 마무리, 쉐이크업으로 인해 성적이 1,787등이나 내렸갔다. : 아직 공부할게 많이 남아있다는 것에 위안 삼으며 이번 대회를 마무리 짓고자 한다. 2) LSTM 모델 코드 : 내가 초기 M5에 사용했었던 LSTM 모델 코드(pytorch)는 다음과 같다. : Many to Many, Bidirectional 을 사용 : 초기 모델은 연산량이 많았던 모델이였기 때문에 학습 시간이 많이 소요됨 : 임베딩층을 쓰지 않고 hidden layers 개수를 줄여도 성능의 큰 차이는 없다. class TimeDistributed(nn.Module): def __..
2020.07.05 -
M5 Forecasting_Kaggle (2/3부)
M5 Forecasting 대회 진행 2020년 06월 M5 Forecasting 대회 종료까지 약 일주일이 남은 시점 지금까지 대회를 참가하여 배운 내용을 기록하고자 한다. 매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다. 참가한 대회 정보는 아래와 같다. https://www.kaggle.com/c/m5-forecasting-accuracy M5 Forecasting - Accuracy Estimate the unit sales of Walmart retail goods www.kaggle.com 1) 시계열 데이터에 대한 이해 : 우리가 다루고 있는 현실 세계에서 발생되고 있는 데이터는 대부분 시계열 데이터이며 동적인 개념으로 데이터를 바라봐야 함 : 현실 세계 시계열 데이터..
2020.06.24 -
M5 Forecasting_Kaggle(1/3부)
M5 Forecasting 대회 진행 2020년 05월 30일 매년 진행해온 월마트(Walmart) 판매 상품 예측 분석 경진대회이다. 이번에는 시계열 관련된 딥러닝 문제를 해결해나가며 관련된 알고리즘을 공부하고자 참가했다. 참가한 대회 정보는 아래와 같다. https://www.kaggle.com/c/m5-forecasting-accuracy M5 Forecasting - Accuracy Estimate the unit sales of Walmart retail goods www.kaggle.com 1. 현재 성적 현재 M5 Forecasting 대회에 제출한 성적은 0.48484로 1,225등이다. 해당 성적 모델은 LGBM 모델을 사용한 결과로 딥러닝 모델보다 성적이 좋아 해당 스코어로 기록됐다. ..
2020.05.30 -
Bengali_Kaggle(2/2부)
Bengali 대회 종료 2020년 3월 16일 Bengali 손글씨 분류 대회가 종료됐다. 우리팀의 최종 성적은 0.9272로 전체 2,059개 팀 중 318등을 기록했다. 해당 대회에 최종 제출한 모델은 전이 학습을 통해 만들 모델들의 앙상블로 구성했다. 사용한 모델의 종류는 seresnet, efficientnet, ghostnet, densenet 4가지 이며 가중치를 각각 다르게 주어 모델의 성능을 향상시켰다. 스터디를 진행하면서 처음 참가한 대회로 성적은 나쁘지 않다고 생각한다. 해당 대회를 진행하면서 배웠던 점은 크게 1) Framework, 2) 이미지 전처리, 3) 전이학습 이다. 1) Framework 기존에는 상위 레벨의 언어인 케라스를 중심으로 사용했다면, 이번 대회에서는 파이토치를..
2020.05.04