본문 바로가기

R_statistics/Rs_basic

[통계] 회귀 (regression) 분석에서 설명변수의 고정

미루고 미루었던 .... 너무나 오랜만에 돌아온 기초 통계 포스팅이네요 ㅎㅎ
반성하겠습니다.

 

https://bpapa.tistory.com/49 

 

[통계] 회귀 (regression) 분석에서 비편향 (불편, unbiased) 의 의미와 증명

바쁘다는 핑계로 너무 오랜만의 포스팅이 되었네요. 이번 포스팅의 주제는 바로 회귀분석의 가장 기초적인 부분이라고 할 수 있는 내용입니다. 바로 비편향 혹은 불편. 영어로는 unbiased 라고 하죠. 여기서 비편..

bpapa.tistory.com

오늘은 지난번 포스팅 (비편향, unbiased) 의 말미에 다루었던 내용을 포스팅해보겠습니다. 

 

회귀분석의 기본 가정 중에 하나이죠.

'설명변수를 고정한다.'

이 말의 뜻은 표본추출을 할때, $x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값들을 고정을 시킨다는 의미입니다.

즉, 표본추출을 반복하였을 때, $x_1$, $x_2$, $x_3$, ..., $x_n$ 를 변화시키는 것이 아니라,

모든 표본에서 $x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값들은 변화하지 않고 똑같다는 뜻입니다.

 

이 가정하에서 아래의 조건이 성립하게 됩니다.

$ \hat{\beta_1} $ 은 정규분포를 이루게 되며, 그 분산이

$  \sigma^2 \over \sum\limits_{i=1}^n (x_i-\bar{x})^2 $ 이렇게 됩니다. 

이를 변형시킨 $ (\hat{\beta_1}-\beta_1) \over sd(\hat{\beta_1}) $ 은 표준정규분포를 보이게 되죠?

여기에서 $ sd(\hat{\beta_1}) $ 를 통계량 $ se(\hat{\beta_1}) $ 로 변경하면 

위의 $ (\hat{\beta_1}-\beta_1) \over sd(\hat{\beta_1}) $ 은 $ t_{n-2} $ 분포를 보이게 됩니다. 

 

$ (\hat{\beta_1}-\beta_1) \over sd(\hat{\beta_1}) $ ~  $ t_{n-2} $  이 수식을 잘 살펴봅시다.

느낌이 오시죠? $x_1$, $x_2$, $x_3$, ..., $x_n$ 와는 전혀 상관없이 $ t_{n-2} $ 분포를 보이는 것을 알수가 있습니다. 

 

즉, 위의 내용을 정리하면,

설명변수의 표본값을 임의로 추출할때 혹은 $x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값이 임의로 결정된다고 할 경우,

$x_1$, $x_2$, $x_3$, ..., $x_n$ 의 값이 주어질때,

오차평균은 0, 동분산성, 오차간 독립, 정규분포의 가정이 성립해야한다고 정리할 수 있겠습니다.

 

** 도움이 되셨다면, '공감' 버튼 부탁드립니다^^