미루고 미루었던 .... 너무나 오랜만에 돌아온 기초 통계 포스팅이네요 ㅎㅎ
반성하겠습니다.
오늘은 지난번 포스팅 (비편향, unbiased) 의 말미에 다루었던 내용을 포스팅해보겠습니다.
회귀분석의 기본 가정 중에 하나이죠.
'설명변수를 고정한다.'
이 말의 뜻은 표본추출을 할때, $x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값들을 고정을 시킨다는 의미입니다.
즉, 표본추출을 반복하였을 때, $x_1$, $x_2$, $x_3$, ..., $x_n$ 를 변화시키는 것이 아니라,
모든 표본에서 $x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값들은 변화하지 않고 똑같다는 뜻입니다.
이 가정하에서 아래의 조건이 성립하게 됩니다.
$ \hat{\beta_1} $ 은 정규분포를 이루게 되며, 그 분산이
$ \sigma^2 \over \sum\limits_{i=1}^n (x_i-\bar{x})^2 $ 이렇게 됩니다.
이를 변형시킨 $ (\hat{\beta_1}-\beta_1) \over sd(\hat{\beta_1}) $ 은 표준정규분포를 보이게 되죠?
여기에서 $ sd(\hat{\beta_1}) $ 를 통계량 $ se(\hat{\beta_1}) $ 로 변경하면
위의 $ (\hat{\beta_1}-\beta_1) \over sd(\hat{\beta_1}) $ 은 $ t_{n-2} $ 분포를 보이게 됩니다.
$ (\hat{\beta_1}-\beta_1) \over sd(\hat{\beta_1}) $ ~ $ t_{n-2} $ 이 수식을 잘 살펴봅시다.
느낌이 오시죠? $x_1$, $x_2$, $x_3$, ..., $x_n$ 와는 전혀 상관없이 $ t_{n-2} $ 분포를 보이는 것을 알수가 있습니다.
즉, 위의 내용을 정리하면,
설명변수의 표본값을 임의로 추출할때 혹은 $x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값이 임의로 결정된다고 할 경우,
$x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값이 주어질때,
오차평균은 0, 동분산성, 오차간 독립, 정규분포의 가정이 성립해야한다고 정리할 수 있겠습니다.
** 도움이 되셨다면, '공감' 버튼 부탁드립니다^^
'R_statistics > Rs_basic' 카테고리의 다른 글
[통계] 생존분석:: Stratified Cox proportional hazard model, 층화Cox 비례가정위험모형 (0) | 2019.09.30 |
---|---|
[통계] 가우스 마코프 정리, Gauss-Markov Theorem 의 정의와 의미 (0) | 2019.09.19 |
[통계] 회귀 (regression) 분석에서 비편향 (불편, unbiased) 의 의미와 증명 (0) | 2019.04.08 |
[통계] 중심극한정리, Central Limit Theorem (CLT) 의 정의 (0) | 2019.03.12 |
[통계] 제곱합, SST, SSE, SSR, 최소제곱법 (0) | 2019.02.26 |