Recently Post
-
LTSF-Linear(DLinear, NLinear) 논문 리뷰/구현(Are Transformers Effective for Time Series Forecasting?)
long-term time series forecasting (LTSF) 과제에서 Informer와 같이 Transformer 기반 모델이 실제로 효과적인지 살펴보고 간단한 선형 및 분해 모델로도 높은 성능을 낼 수 있다는 LTSF-Linear: Are Transformers Effective for Time Series Forecasting? 논문을 소개하고자 합니다. CONCEPT 본 논문은 트랜스포머 모델이 명확한 추세와 주기성을 지닌 장기 시계열 예측에 정말 효과적인가에 대한 질문으로부터 시작합니다. LTSF 과제에서는 시간적 변화를 모델링하는데 주 목적을 두기 때문에 시간 순차성 정보가 예측에 있어 가장 중요한 역할을 하게 됩니다. 트랜스포머의 경우 이런 시간 순차성 정보를 보존하기 위해 위치 ..
-
파이토치 허브(PYTORCH HUB)
최신 연구된 모델을 검색하고 손쉽게 활용할 수 있는 파이토치 허브에 대해 소개해드리겠습니다. https://pytorch.kr/hub/ 파이토치 한국 사용자 모임 (PyTorch Korea User Group) 파이토치 한국 사용자 모임에 오신 것을 환영합니다. 딥러닝 프레임워크인 파이토치(PyTorch)를 사용하는 한국어 사용자들을 위해 문서를 번역하고 정보를 공유하고 있습니다. pytorch.kr 현재 파이토치 허브에서는 Audio, Generative, Nlp, Scriptable, Vision과 관련된 최신 연구 모델들을 공개하고 있습니다. 평소 Generative 모델에 관심이 많았기 때문에 가장 기초가 되는 DCGAN에 대해서 살펴보도록 하겠습니다. DCGAN ON FASHIONGEN 64x6..
-
시계열 데이터 이상 탐지(Anomaly Detection)
시계열 데이터 이상 탐지는 시간 흐름에 따른 평균과 분산을 고려하는 방법론을 주로 사용합니다. 예를 들어 설명하면, 위 그림과 같이 월별 전력사용량에서 anomaly가 의심되는 두 지점(p1, p2)을 살펴보면 여름에 높은 전력사용량이 의심되는 p1이 감소하는 계절의 p2보다 anomaly일 가능성이 높습니다. 그래서 시계열 데이터의 경우 context를 고려한 이상 탐지 모델을 설계해야 비용 절감과 좋은 성능의 모델을 만들 수 있습니다. Anomaly Anomaly란 일반적인 데이터와는 다른 메커니즘에 의해 발생된 데이터(1980, Hawkins) 혹은 확률 밀도가 낮은 빈도의 데이터(2006, Harmeling) 등 다양하지만 일반적이 않은 데이터라고 정의됩니다. 그리고 Anomaly는 주가 급듭 신..
-
시계열 데이터 예측 모델링(Stacked Hybrids)
시계열 데이터는 패턴이 모두 동일하지 않으며 특성에 따라 매우 다양합니다. 도메인 지식이 있는 분야라면 이를 해석하고 분석하는데 큰 어려움이 없겠지만 그렇지 않다면 많은 시간을 소비하게 되고 정확한 예측 모델링이 어렵습니다. 이때 시계열 성분은 데이터 이해와 올바른 모델링을 하기 위한 가이드라인을 제시해줍니다. TIME SERIES COMPONENT 시계열 데이터 성분은 추세(Trend), 계절성(Seasonality), 주기(Cycle), 잔차(Residual)로 이루어져 있습니다. 우선 추세란 단기~중기로 증가하거나 감소하는 패턴을 의미하며 주로 제품의 생명주기와 연관 지어 살펴볼 수 있습니다. 다음으로 계절성은 일, 주, 월, 년 단위로 변동이 반복적으로 관측되는 패턴을 의미하며 자연 현상이나 사회..
-
시계열 데이터 전처리(Denoising Method)
시계열 데이터를 분석하는 과정에서 시간 흐름에 따라 변동이 크거나 일정하지 않을 경우 비정상성(Non-Stationarity)을 지니게 되고 이를 전처리 없이 머신러닝 알고리즘에 학습할 경우 단순 후행 예측, 성능 저하, 잘못된 추론 등의 문제를 야기시킬 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연 값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫 번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관..
-
시계열 데이터 전처리(Encoding Time Step Features)
시계열 데이터를 분석하는 과정에서 주기적 성질을 지니고 있는 데이터들을 빈번히 발견할 수 있습니다. 데이터가 주기적 성질을 지니고 있다면 사인함수, 코사인함수와 같은 삼각함수의 합으로 표현이 가능하고 이를 통해 데이터를 다른 관점에서 바라볼 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관측값이 주기적 성질..
-
TabNet 논문 리뷰(Attentive Interpretable Tabular Learning)
Tabular data에서 우수한 성능을 냈던 Tree based ensemble Model의 특징을 딥러닝에 적용하기 위한 TabNet: Attentive Interpretable Tabular Learning 논문을 소개하고자 합니다. CONCEPT 현실 세계 데이터는 딥러닝에서 가장 일반적으로 사용되는 정형 데이터임에도 불구하고 1) 빠르게 개발할 수 있고, 2) 성능이 우수하며, 3) 높은 해석력을 가지고 있는 트리 기반 앙상블 모델들로 문제를 해결하고 있습니다. 논문 저자는 트리 기반 앙상블 모델들이 딥러닝에 비해 정형 데이터에서 학습에 보다 논리적이고 합리적인 접근 방법이라고 소개합니다. 왜냐하면 일반적으로 관측되는 정형 데이터는 대략적인 초평면(hyperplane) 경계를 지니고 있는 매니폴..
-
분위수 회귀(Quantile Regression) with Python
분위수 회귀(Quantile Regression) 소개 : 팀에서 공유 섹션으로 간단한 분위수 회귀(Quantile reg)를 준비 : 발표 내용 중 일부를 코드와 함께 공유하고자 함 1. 분위수 회귀(Quantile Resgression)? : 분위수 회귀는 선형 회귀 조건이 충족되지 않을 때 사용되는 선형 회귀의 확장 버전 https://ko.wikiqube.net/wiki/Quantile_regression : 실제로 내가 사용하는 경우는 아래와 같음 1) Robust한 결과를 내고 싶을 때 2) 이상치가 많아 이에 대한 영향을 줄인 선형 회귀선을 구하고 싶을 때 3) 점 추정이 아닌 구간추정을 통해 결과의 정확도를 높이고 싶을 때 4) 반응변수의 스프레드를 같이 살펴보고 싶을 때 5) 선형 회귀 ..
Most Popular
-
LTSF-Linear(DLinear, NLinear) 논문 리뷰/구현(Are Transformers Effective for Time Series Forecasting?)
long-term time series forecasting (LTSF) 과제에서 Informer와 같이 Transformer 기반 모델이 실제로 효과적인지 살펴보고 간단한 선형 및 분해 모델로도 높은 성능을 낼 수 있다는 LTSF-Linear: Are Transformers Effective for Time Series Forecasting? 논문을 소개하고자 합니다. CONCEPT 본 논문은 트랜스포머 모델이 명확한 추세와 주기성을 지닌 장기 시계열 예측에 정말 효과적인가에 대한 질문으로부터 시작합니다. LTSF 과제에서는 시간적 변화를 모델링하는데 주 목적을 두기 때문에 시간 순차성 정보가 예측에 있어 가장 중요한 역할을 하게 됩니다. 트랜스포머의 경우 이런 시간 순차성 정보를 보존하기 위해 위치 ..
2023.01.01 22:46 -
시계열 데이터 전처리(Denoising Method)
시계열 데이터를 분석하는 과정에서 시간 흐름에 따라 변동이 크거나 일정하지 않을 경우 비정상성(Non-Stationarity)을 지니게 되고 이를 전처리 없이 머신러닝 알고리즘에 학습할 경우 단순 후행 예측, 성능 저하, 잘못된 추론 등의 문제를 야기시킬 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연 값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫 번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관..
2022.02.13 17:27 -
시계열 데이터 전처리(Encoding Time Step Features)
시계열 데이터를 분석하는 과정에서 주기적 성질을 지니고 있는 데이터들을 빈번히 발견할 수 있습니다. 데이터가 주기적 성질을 지니고 있다면 사인함수, 코사인함수와 같은 삼각함수의 합으로 표현이 가능하고 이를 통해 데이터를 다른 관점에서 바라볼 수 있습니다. TIME SERIES FEATURES 시계열 데이터에는 일반적으로 시간 순차성(Time Step)과 지연값(Lag)이라는 고유한 2가지 특성이 존재합니다. 두 특성 모두 시간 축을 바탕으로 발생하며 시계열 문제를 머신러닝 모델로 접근하고 해결하기 위해 유용한 특성입니다. 첫번째, 시간 순차성(Time Step)은 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적입니다. 이는 관측값이 주기적 성질..
2022.01.31 16:55