머신러닝(7)
-
TabNet 논문 리뷰(Attentive Interpretable Tabular Learning)
Tabular data에서 우수한 성능을 냈던 Tree based ensemble Model의 특징을 딥러닝에 적용하기 위한 TabNet: Attentive Interpretable Tabular Learning 논문을 소개하고자 합니다. CONCEPT 현실 세계 데이터는 딥러닝에서 가장 일반적으로 사용되는 정형 데이터임에도 불구하고 1) 빠르게 개발할 수 있고, 2) 성능이 우수하며, 3) 높은 해석력을 가지고 있는 트리 기반 앙상블 모델들로 문제를 해결하고 있습니다. 논문 저자는 트리 기반 앙상블 모델들이 딥러닝에 비해 정형 데이터에서 학습에 보다 논리적이고 합리적인 접근 방법이라고 소개합니다. 왜냐하면 일반적으로 관측되는 정형 데이터는 대략적인 초평면(hyperplane) 경계를 지니고 있는 매니폴..
2022.01.29 -
태양광 발전량 예측 AI 경진대회_Dacon(3/3부)
태양광 발전량 예측 AI 경진대회_Dacon(3/3부) : 지난 포스팅에서는 1) 태양광 발전량 예측 AI 경진대회 문제 및 데이터와 2) Base model을 소개자료는 아래와 같음 : 이번 포스팅에서는 가장 최고의 성능을 보여주었던 모델을 소개하고자 함(단일 모델) 태양광 발전량 예측 AI 경진대회 링크 dacon.io/competitions/official/235680/overview/ 태양광 발전량 예측 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 태양광 발전량 예측 AI 경진대회_Dacon(1/3부)_ 대회 및 데이터 소개 today-1.tistory.com/40 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) 태양광 발전량 예측 AI..
2021.03.06 -
태양광 발전량 예측 AI 경진대회_Dacon(2/3부)
태양광 발전량 예측 AI 경진대회_Dacon(2/3부) : 지난 포스팅에서는 태양광 발전량 예측 AI 경진대회 문제와 데이터에 대해 소개를 함 : 이번 포스팅에서는 모델의 설명력과 성능을 가장 향상시켜 줬던 변수(처리방법 포함)와 모델을 공유하고자 함 태양광 발전량 예측 AI 경진대회_Dacon(1/3부)_ 대회 및 데이터 소개 today-1.tistory.com/40 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) : 시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨 : 분석 주제는 지역의 기상 데이터와 과거 발 today-1.tistory.com 대회 소개(링크) dacon.io..
2021.02.26 -
Auto ML PyCaret을 활용한 Kaggle 문제 풀기
Auto ML PyCaret 평소 Auto ML에 관심만 있었지 실제로 사용해보지 못했는데 연휴 동안 살펴보면서 Auto ML 패키지 중 접근성이 좋은 PyCaret을 소개해보고자 한다. pycaret.org/ Home - PyCaret Data Preparation in PyCaret Whether its imputing missing values, transforming categorical data, feature engineering or even hyperparameter tuning of models, PyCaret automates all of it. It orchestrates the entire pipeline no matter how complex it is. pycaret.org Au..
2020.10.04 -
M5 Forecasting_Kaggle(3/3부)
M5 Forecasting 대회 종료 1) 대회 결과 : 상위 5% 이내 목표를 세웠지만 결과는 참담했다. : 1,946위로 상위 16%에 해당하는 성적으로 마무리, 쉐이크업으로 인해 성적이 1,787등이나 내렸갔다. : 아직 공부할게 많이 남아있다는 것에 위안 삼으며 이번 대회를 마무리 짓고자 한다. 2) LSTM 모델 코드 : 내가 초기 M5에 사용했었던 LSTM 모델 코드(pytorch)는 다음과 같다. : Many to Many, Bidirectional 을 사용 : 초기 모델은 연산량이 많았던 모델이였기 때문에 학습 시간이 많이 소요됨 : 임베딩층을 쓰지 않고 hidden layers 개수를 줄여도 성능의 큰 차이는 없다. class TimeDistributed(nn.Module): def __..
2020.07.05 -
Bengali_Kaggle(2/2부)
Bengali 대회 종료 2020년 3월 16일 Bengali 손글씨 분류 대회가 종료됐다. 우리팀의 최종 성적은 0.9272로 전체 2,059개 팀 중 318등을 기록했다. 해당 대회에 최종 제출한 모델은 전이 학습을 통해 만들 모델들의 앙상블로 구성했다. 사용한 모델의 종류는 seresnet, efficientnet, ghostnet, densenet 4가지 이며 가중치를 각각 다르게 주어 모델의 성능을 향상시켰다. 스터디를 진행하면서 처음 참가한 대회로 성적은 나쁘지 않다고 생각한다. 해당 대회를 진행하면서 배웠던 점은 크게 1) Framework, 2) 이미지 전처리, 3) 전이학습 이다. 1) Framework 기존에는 상위 레벨의 언어인 케라스를 중심으로 사용했다면, 이번 대회에서는 파이토치를..
2020.05.04