Data Science(35)
-
Generative Adversarial Nets_GAN_Overview
Generative Adversarial Nets_GAN_(Overview) : 2014년 공개된 GAN(Generative Adversarial Nets) 논문 리뷰를 진행 : 개념을 설명하는 Overview와 Tensor 2.0 구현 Code 2개 챕터로 소개 Generative Adversarial Nets 논문 링크 arxiv.org/pdf/1406.2661.pdf Generative Adversarial Nets Tutorial 링크 arxiv.org/pdf/1701.00160.pdf 1. Concept : 생성모델(G)은 학습 데이터를 학습하여 학습 데이터의 분포를 따르는 유사한 데이터를 생성하는 모델 : Markov decision process, VAE, Bayesian Network, G..
2021.03.02 -
태양광 발전량 예측 AI 경진대회_Dacon(2/3부)
태양광 발전량 예측 AI 경진대회_Dacon(2/3부) : 지난 포스팅에서는 태양광 발전량 예측 AI 경진대회 문제와 데이터에 대해 소개를 함 : 이번 포스팅에서는 모델의 설명력과 성능을 가장 향상시켜 줬던 변수(처리방법 포함)와 모델을 공유하고자 함 태양광 발전량 예측 AI 경진대회_Dacon(1/3부)_ 대회 및 데이터 소개 today-1.tistory.com/40 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) 태양광 발전량 예측 AI 경진대회_Dacon(1/3부) : 시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨 : 분석 주제는 지역의 기상 데이터와 과거 발 today-1.tistory.com 대회 소개(링크) dacon.io..
2021.02.26 -
Prophet을 활용한 Kaggle 문제 풀어보기
FaceBook Prophet Library : Facebook에서 공개한 시계열 예측 오픈소스 라이브러이인 'Prophet'을 가지고 Kaggle 문제를 풀어보자 : Prophet은 현업 전문가들이 풍부한 도메인 지식을 바탕으로 쉽게 예측 문제를 접근할 수 있도록 도와주는 라이브러리로 소개됨 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을 반영하기 어려움 분석가들은 도메인 지식만 풍부한 편이며 분석을 쉽게 다루지 못함 비전문가가 경험적 특성을 반영할 수 있도록 필요한 부분을 자동화 : 실제로 사용해본 결과 빠르게 결과를 산출해낼 수 있으며 생각외로 좋은 성능을 보여줌 : Prophet의 하이퍼 파라미터를 소개하면서 Kaggle 문제를 교보재로 소개하고자 함 Paper: https://pee..
2021.02.25 -
태양광 발전량 예측 AI 경진대회_Dacon(1/3부)
태양광 발전량 예측 AI 경진대회_Dacon(1/3부) : 시계열 데이터 분석을 공부하면서 배운 내용을 실제로 활용해 보기 위해 해당 competition에 참가하게 됨 : 분석 주제는 지역의 기상 데이터와 과거 발전량 데이터를 활용하여, 시간대별 태양광 발전량을 예측(30분 단위) : 한 달이 넘는 기간동안 참가했으며 대회 종료까지 104회 제출하여 Public 1위, Private Top10 기록 : 해당 대회는 굉장히 큰 Shake Up이 발생해 최종적으로는 수상을 하지 못함 : 사실 local CV와 LB score가 굉장히 틀려 과적합을 의심했었지만 LB score의 미련을 버리지 못한 실수인지.... : 이번 대회에서는 모델링뿐만 아니라 FE(feature engineering)이 매우 중요했..
2021.02.24 -
다변량 선형 확률과정(VAR/Granger Causality/Cointegration)
다변량 선형 확률과정(VAR/Granger Causality/Cointegration) : 다변량 선형 확률과정을 공부하고자 함. : 해당 모델들은 결국 AR 모형을 번갈아 사용, X인자 추가, 적분을 활용한 내용들로 구성 됨. 1) 벡터자기회귀 모형(VAR) - 정상성 데이터 입력(차분 필요) 2) 그래인저 인과관계(Granger Causality) - 정상성 데이터 입력(차분 필요) 3) 공적분(Cointegration) - 비정상성 데이터 입력 : 다변량 선형 확률과정 복습을 위해 주식 데이터를 활용하기로 함 1. 벡터자기회귀 모형(VAR) : 종속 변수와 독립 변수는 상호 영향을 받는 존재. : 두 변수들 중 어떤 변수가 종속변수로 적합한지에 대한 문제를 해결하기 위해 VAR을 활용. import..
2021.01.07 -
시계열 데이터 분석 싸이클
시계열 데이터 분석 싸이클(Time Series Analysis Cycle) : 지금까지 공부해온 선형확률과정의 분석 싸이클을 다시 살펴보고자 함 1. 비정상 과정에서 정상 과정 추출 : 결정론적 추세나 확률적 추세가 있는지 확인 결정론적 추세는 회귀분석, 다항식 등으로 모형화 후 이를 분리 확률적 추세인 경우, 즉 ARIMA 모형인 경우에는 ADF(Augmented Dickey Fuller) 검정을 사용하여 적분차수(Order of Integration)을 알아내서 차분 2. 정규성 확인 : 정규성 검정을 통해 자료의 분포가 정규 분포인지 확인 일반 선형 확률 과정인 경우에는 전체 시계열이 가우시안 백색 잡음의 선형 조합으로 이루어지기 때문에 시계열 자체도 가우시안 정규 분포 ARIMA 모형 등의 일반..
2021.01.04