본문 바로가기

반응형
SMALL

DataScience/Data

(9)
[MLE]Maximum likelihood estimation에 대하여 이번 포스팅에서는 Smoothing , Estimation, Probability Distribution등을 조사하며 나오는 Maximum likelihood 가 무엇인지 알아 보도록 하겠다. Wikipedia를 살펴보면 MLE는 Statistic에서 Maximum likelihood method는 Observation data 가 주어졌을때 가정된 확률분포(Probability Distribution)의 Parameter θ를 추정하는 방법이다. 가정된 Statistic model에서 Observation data에 의존하여 가장 가능성이(Maximizing한) 있는 likelihood function을 추정하는 것이다. 즉 parameter θ의 공간에서 maximize한 Likelihood func..
[Data processing] Smooth Bootstrap & Parametric Bootstrap Smooth Bootstrap Smooth Bootstrap은 Normally한 Distribution에서 적은 양의 Zero-centered Random nosie가 각 Resampling된 observation data에 추가가 된 방식이다. 즉 데이터의 Kernel density estmate를 Sampling 하는것과 같다고 할수 있다. observation data set X = { X1 , .... Xn}은 density f의 잘 알지 못하는 어떤 continuous distribution F로부터의 Random Samplie이라고 가정해보자. α(F)는 α(F^) K가 Unit Variance를 가지는 Symmetric Kernel Density function이라고 가정하면 아래의 첫번째 ..
KDE -Kernel Density Estimation 이란 ? Smoothing Bootstrap을 공부하다 보면 Kernel Density Estimation개념이 나오게 된다 또한 Bootstrap method를 사용하는 몇몇 논문을 확인하면 Long Term Estimate 기법에서 데이터의 Density를 Estimation하는게 더 유익하다고 한다. 여기서 Density Estimation이 무엇인가 ? 또한 그냥 가볍게 아~ 저게 Kernel이구나 하고 사용하였던 Kernel에 대하여 다루어 보고 KDE가 무엇인지 밝혀보고자 한다 . Motivation 어떤 데이터의 분포를 파악하는 것은 데이터 분석시 아주 중요한 단계라고 할 수 있다. 실제 데이터 분포는 정규 분포와 같은 형태를 따르지 않고 데이터가 어떤 분포를 따르는지 대체로 알 수 없다. 이럴때 분..
[Data processing]- Bayesian Bootstrap Method Bayesian Bootstrap Bayesian Theorem - Bayesian Statistic은 일반적인 Statistic 과 가장큰 차이가 Population을 미리 확정하지 않는 점이 가장 큰 차이점이다. 즉 Bayesian Theorem은 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 과정이다. 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방식으로 베이지안 관점의 통계학에서는 사전 확률과 같은 경험에 기반한 선험적인, 혹은 불확실성을 내포하는 수치를 기반으로 하고, 거기에 추가 정보를 바탕으로 사전확률을 갱신하게 된다. P(H) ; H의 사전 확률 ( prior probablistic , 과거의 경험적 확률 ) P(D|H) ; 사건 H가 ..
[Data processing]Bootstrapping /Compiler/ Statistic/ ML 관점의 정리 Introduce : What's the bootstrapping Density Forecasting for Long-Term Peak Electricity Demand 및 Constructing Probabilistic Load Forecast From Multiple Point Forecast: A Bootstrap Based Approach 의 논문을 보면 Bootstrapping 기법이 소개 되었다. 신호처리 관점에서 Sampling을 학부및 대학원과정에서 다루어 보았지만 다시한번 복귀하는 차원으로 검색을 해보았다. BootStarp은 일반적으로 Random sampling with replacement에 기반한 통계 검증과 추정을 의미한다. 특정 통계량(추정량)의 분포를 구하기 위해, 관측된 R..
[interpolation] - Spline method 이번 포스팅에서는 리뷰했던 논문 Density Forecasting for Long-Term Peak Electricity Demand 에서 나왔던 Spline에 대해 다루어 보고자한다. Spline 이란 ? 스플라인 곡선(spline curve)은 주어진 복수의 제어점을 통과하는 부드러운 곡선으로, 인접한 두 점 사이에의 구간마다 별도의 다항식을 이용해 곡선을 정의한다고 정의한다. n차 Spline Curve을 이용하면 n차 다항식을 의미하게되고 일반적으로 Spline curve는 3차 곡선을 이용한 보간법(interpolation) 으로 자주 이용되게된다. 여기서 polynomial interpolation은 한번에 모든 데이터를 사용하여 Curve를 생성하게 되지만 Spline interpolati..
[Data PreProcessing]TimeSeries-Smoothing 기법 정리 Terminology Timse Series(시계열) ; 동일한 간격의 연속적인 일련의 시간(연속적인)동안 취한 데이터 시퀀스. Level ; 시계열 데이터의 평균값. Trend ; 시계열 데이터의 증 감 추세 Seasonality ; 시계열 데이터에서 반복되는 단기적인 주기성 cycle. Symbol discription X Observation S Smoothing observation B Trend factor C Seasonal index F The forecast at m periods ahead α Data smoothing factor α ∈ ( 0, 1 ) β Trend smooothing factor β ∈ ( 0,1) γ Seasonal change smoothing factor γ ∈..
[모델 성능지표& Python 코드] Regression - 성능 측정 지표 총정리 머신러닝은 데이터 가공/변환 , 모델 학습/ 예측 그리고 평가의 프로세스로 구성된다. 즉 머신러닝 및 딥러닝 그리고 데이터 모델에대한 최종적인 평가는 성능지표를 통하여 판단하게 된다. 이 이야기는 센서 혹은 여러 비정형 정형데이터를 피나는 노력으로 수집, 전처리, 모델링까지 진행하였다고 하더라도 모델에 대한 평가 지표를 알지못하거나 지표수치가 낮은 수치를 획득하게 된다면 삽질을 하는 순간이 된다. 따라서 논문에 나오는 주요 지표 및 분야별 모델에 대한 성능 지표에 대해 정리해보고자한다. 1. 지표 분류 지표는 주로 regression, classfication, unsupervised models , other로 나누었고 각 파트별로 지표에대한 수식과 그래프적 이유를 설명하고자 한다. regression..
[TREND] Imputation1. 1. 결측이란? 값이 없는것 경우를 의미한다. 즉 결측값 ( missing value)이 존재할 때, 결측값을 버리고 관측값 즉 센싱한 데이터를 분석하게 된다면 [ listwise deletion ] 데이터의 편향이 발생하기 때문에 누락데이터에 관하여 추정 대체 데이터를 대입하여 분석을 하게된다 . 이를 imputation이라고 정의한다. [ ※ Note : imputation은 missing value이고 prediction은 unknown value 이므로 정의자체가 다르다 혼동하지 말자 ] imputation의 종류로는 변수 전체를 대체하는 unit imputation과 관측 일부를 대체하는 item imputation이 있고 방법론적으로 single imputation 및 multiple impu..

반응형
LIST