본문 바로가기

R_statistics/Rs_basic

[통계] 가우스 마코프 정리, Gauss-Markov Theorem 의 정의와 의미

일이 바쁘다보니 포스팅 하기가 상대적으로 간단한 기초 통계를 주로 포스팅 하게 되네요.

오늘의 주제는 통계를 조금이라도 공부를 해보았다면

누구나 들어보았을 가우스 마코프 정리 (Gauss-Markov Theorem) 입니다. 

 

혹시라도 의학통계를 돌리면서도 이 용어를 처음 듣는다면 정말 반성의 시간을 갖도록 합시다.

 

제 블로그 특성상, 증명 과정을 궁금해하시는 분은 많지 않을 것으로 생각을 하여서

이게 어떤 정리인지.. 또 무슨 의미를 갖는지에 대하여 간단히 적어보겠습니다.

 

우선, 이 정리의 요점을 말해보자면 

' (어떠한 조건을 만족하는 상황에서는) 최소제곱 추정량이 가장 좋은 비편향(불편) 추정량이다.'  로 정리 할 수 있습니다.

 

가장 좋은 비편향(불편) 추정량은 영어로 BLUE (Best Linear Unbiased Estimator) 라고 합니다. 

 

그렇다면 이게 무슨 의미일까요. 과연 어떠한 조건이 만족해야할까요?

제 포스팅에서도 종종 정리하는 회귀분석의 기본 가정들... 그 가정들이 만족되었을때, 

least square (최소제곱) 방식으로 추정한 추정량 (회귀식) 이 가장 좋은 방법 (BLUE) 이다는 의미입니다.

즉, 최소제곱법을 사용하면 되었지, 우리가 알고 있는 기타 여러가지 방법들...

예를 들어 maximum likehood estimation 등을 사용할 이유가 없다는 것이 됩니다.

 

 

반대로, 회귀분석의 기본가정을 만족하지 않는 데이터인데...

의학통계에서 주로 사용하는 OLS (ordinary least squares) 를 이용하여 분석을 하였다면,

그 회귀식이 정말 최선의 분석이라도 할수있을까요?

당연히 아닙니다. 다른 기법들을 사용하여 분석을 시행한다면, 다른 결과가 나올 여지가 충분합니다.

최악의 시나리오로 말하자면, 분석자체가 잘못되어서 엉뚱한 결과를 도출하였을 수도 있습니다.

그렇기에 회귀분석을 하신다면 회귀분석의 기본가정에 합당한 데이터인지부터 꼭 확인을 하셔야 합니다.

 

물론, 여기서 개념을 더 확장하고 제약을 약화한, GLS 기법등등 여러가지 기법이 있으나,

  이 포스팅에서는 원론적인 이야기만 하는 걸로 하겠습니다. 

 

여기서 한발자국만 나간다면, 요새 각광받는 머신러닝 기법들 들어보셨죠?

만일 머신러닝으로 분석을 하고자 하는 데이터가 회귀분석들의 기본 가정을 만족을 하는 데이터라고 한다면...

그 데이터를 굳이 high-cost 의 머신러닝으로 분석을 시도하는 사람이 있다면 그 사람은 바보겠죠?

 

즉, 가우스 마코프 정리 (Gasuu-Markov Theorem) 덕분에

회귀분석의 기본 가정이 성립하는 상황에서는 그 어떠한 기법도 OLS 를 능가할 수가 없다는 것이 수학적으로 증명됩니다.

 

제가 증명과정을 넘겨버리고 정의와 의미만을 간단하게 포스팅하였지만, 너무나도 중요하고 기본이 되는 내용입니다.

의학통계를 돌리시는 분이라면 한번쯤은 증명과정을 따라가보시길 추천드리겠습니다. 

 

** 도움이 되셨다면, '공감버튼 부탁드립니다^^