Stutent's t-distribution ( t분포)
T-distribution 이용
(표준)정규 분포는 많은 data sample로 부터 $\mu, \sigma$를 정확히 추정이 가능할 때 사용합니다. 하지만 실제로는 사용가능한 data sets이 적을 때 정확한 $\mu, \sigma$ 추정이 어려워 표준 정규 분포를 사용하기 힘든데, 이때 $t-distribution$ 을 이용합니다.
$Struent's t-distribution$
자유도 $v$ ( $v$ = 샘플 수 - 1 )로 정의되는 분포이며 자유도가 클 때(>1000) 정규 분포에 매우 근사하며 $v \rightarrow \infty$일 때 정규 분포에 수렴합니다. 정규 분포처럼 종모양이지만, 자유도가 낮을 수록 두꺼운 tail( = 두꺼운 끝쪽 )을 가집니다. 이런 두꺼운 tail은 적은 샘플을 통한 정규 분포 모델링에서의 정확하지 못한 평균과 분산 추정으로 인한 통계적 유의성 loss를 뜻하기 때문에 꽤나 직관적입니다.
t-distribution은 $v$ 만큼의 iid(independent and identical ditributed)의 standard normal distribution의 function으로 표현되며 다음과 같이 정의됩니다.
$T(v) = \cfrac{U_0}{\sqrt(\sum_{i=1}^v U_i^2/v)}$ , $ U_i \sim N(0,1^2) $
t- distribution은 서로 독립인 적은 수의 normal distribution의 samples를 이용하여 구하고자 하는 underlying normal distribution에 대한 standard deviation 측정의 randomness modeling합니다. ($U_0$ 가 분모로 나뉘는 것이므로 평균은 변화 없고 분산만 변합니다. )
분모의 $\sum_{i=1}^v U_i^2$ 항은 파라미터가 $v$인 $\chi^2 distribution$이며, $v \rightarrow \infty$일 때 전체 분모는 1로 수렴합니다. 즉 샘플이 충분히 많아 $v$ 값이 클 때 분모를 통한 randomness는 사라지며, 정규 분포로 수렴하게 됩니다. 반대로 샘플 수가 작아 $v$값이 작아진다면 t분포는 두꺼운 tail을 가지게 됩니다.
적은 샘플 개수를 통한 extreme-value detection process
- 각 샘플에 대한 평균과 표준편차를 측정하고 이 값을 통해 샘플에서 뽑은 각 data point에 대한 t-value를 계산합니다. 이때 t-value는 $Z$-value 구하는 방식과 동일합니다.
- 각 data point의 tail probability는 N-1 (N은 데이터 샘플 수) 의 자유도를 가지는 t-distribution의 Cumulative density function을 통해 계산됩니다.
- 정규 분포처럼, standardized 표를 이용하며, 샘플이 1000개 이상이면 정규분포로 근사해서 사용해도 좋습니다.
* 이 글은 Charu C. Aggarwal 의 Outlier Analysis Second Edition을 정리한 글입니다.
'인공지능 > ML' 카테고리의 다른 글
Isolation Forests for Outlier Detection (0) | 2021.04.30 |
---|---|
ROC Curve 설명(해석) 및 그리기(구현)-Python (2) | 2021.02.28 |
Precision-Recall Curves 설명 및 그리기(구현)-Python (2) | 2021.02.27 |
이상치 감지를 위한 Depth-Based Method (0) | 2021.02.25 |
Box plot 정리 (0) | 2021.02.25 |