본문으로 바로가기

Stutent's t-distribution ( t분포)

category 인공지능/ML 2021. 2. 25. 12:30

Stutent's t-distribution ( t분포)

T-distribution 이용

(표준)정규 분포는 많은 data sample로 부터 $\mu, \sigma$를 정확히 추정이 가능할 때 사용합니다. 하지만 실제로는 사용가능한 data sets이 적을 때 정확한 $\mu, \sigma$ 추정이 어려워 표준 정규 분포를 사용하기 힘든데, 이때 $t-distribution$ 을 이용합니다.

 

$Struent's t-distribution$

자유도 $v$ ( $v$ = 샘플 수 - 1 )로 정의되는 분포이며 자유도가 클 때(>1000) 정규 분포에 매우 근사하며 $v \rightarrow \infty$일 때 정규 분포에 수렴합니다. 정규 분포처럼 종모양이지만, 자유도가 낮을 수록 두꺼운 tail( = 두꺼운 끝쪽 )을 가집니다. 이런 두꺼운 tail은 적은 샘플을 통한 정규 분포 모델링에서의 정확하지 못한 평균과 분산 추정으로 인한 통계적 유의성 loss를 뜻하기 때문에 꽤나 직관적입니다.

t-distribution은 $v$ 만큼의 iid(independent and identical ditributed)의 standard normal distribution의 function으로 표현되며 다음과 같이 정의됩니다.

$T(v) = \cfrac{U_0}{\sqrt(\sum_{i=1}^v U_i^2/v)}$ , $ U_i \sim N(0,1^2) $

 

t- distribution은 서로 독립인 적은 수의 normal distribution의 samples를 이용하여 구하고자 하는 underlying normal distribution에 대한 standard deviation 측정의 randomness modeling합니다. ($U_0$ 가 분모로 나뉘는 것이므로 평균은 변화 없고 분산만 변합니다. )

 

분모의 $\sum_{i=1}^v U_i^2$ 항은 파라미터가 $v$인 $\chi^2 distribution$이며, $v \rightarrow \infty$일 때 전체 분모는 1로 수렴합니다. 즉 샘플이 충분히 많아 $v$ 값이 클 때 분모를 통한 randomness는 사라지며, 정규 분포로 수렴하게 됩니다. 반대로 샘플 수가 작아 $v$값이 작아진다면 t분포는 두꺼운 tail을 가지게 됩니다.

 

적은 샘플 개수를 통한 extreme-value detection process

  • 각 샘플에 대한 평균과 표준편차를 측정하고 이 값을 통해 샘플에서 뽑은 각 data point에 대한 t-value를 계산합니다. 이때 t-value는 $Z$-value 구하는 방식과 동일합니다.
  • 각 data point의 tail probability는 N-1 (N은 데이터 샘플 수) 의 자유도를 가지는 t-distribution의 Cumulative density function을 통해 계산됩니다.
  • 정규 분포처럼, standardized 표를 이용하며, 샘플이 1000개 이상이면 정규분포로 근사해서 사용해도 좋습니다.

 

 

* 이 글은 Charu C. Aggarwal 의 Outlier Analysis Second Edition을 정리한 글입니다.