본문 바로가기

R_statistics/Rs_basic

[R프로그래밍] 데이터전처리:: multiple imputation 에 대하여 https://bpapa.tistory.com/65 [통계] 결측값의 종류와 처리 방법 오늘의 주제는 통계 분석을 하는 사람의 가장 큰 고민거리 중 하나인 결측값에 대한 내용입니다. R에서 실제로 결측값을 처리하는 방법에 대한 포스팅은 추후에 한번 하도록 하겠으며, 오늘은 결측값에 대한 기본.. bpapa.tistory.com 위의 글과 이어지는 글입니다. (오랜만의 포스팅이네요.) 결측값을 처리 함에 있어서 여러가지를 고민해야 함을 이전 포스팅에 남겼었죠. 그리고 여러 복잡한 데이터 세트의 경우에는 많은 경우에서 multiple imputation (MI) 이 좋은 결과를 보여준다고 글을 남겼었습니다. 저 포스팅에서 MI가 method of choice 인 조건이 기억나실까요? (원칙적으로는 MAR 에..
[통계] 데이터 분석 시 로그 변환, log transformation 이 꼭 필요할까 ? 통계 공부를 하다보면 어느 순간 드는 의문 중의 하나입니다. 논문을 읽다보면 데이터 전처리 관련하여 '변수가 정규분포를 하지 않아서 log-transformation (로그변환) 을 했다.' 는 구절을 종종 찾아볼 수가 있습니다. 저도 공부하다가 궁금해서 몇번 찾아본 적이 있었습니다만, 명쾌한 답은 얻지 못하였었습니다. 아직까지도 정확한 답은 찾지 못하였지만... 회귀를 포함한 여러가지 통계에 대한 공부를 하다보니까, 지금까지의 제 지식으로는 특별한 경우를 제외하고는 굳이 할 필요가 없다고 느껴집니다. 여러 articles 도 있지만, 그중 citation 도 좀 많이 되어 있는 흥미로운 논문이 있어서 소개해드리고자 합니다. 시간이 없으시다면, summary 부분만 읽어보셔도 충분할 것 같습니다. htt..
[통계] 결측값의 종류와 처리 방법 오늘의 주제는 통계 분석을 하는 사람의 가장 큰 고민거리 중 하나인 결측값에 대한 내용입니다. R에서 실제로 결측값을 처리하는 방법에 대한 포스팅은 추후에 한번 하도록 하겠으며, 오늘은 결측값에 대한 기본적인 포스팅을 해보고자 합니다. 너무 복잡하면 읽기 싫으시니, 개념을 잡는 방식으로 간략히 포스팅하겠습니다. 1. 결측값, NA 의 종류 MCAR, Missing completely at random MAR, Missing at random MNAR, Missing not at random 위의 3가지로 나눌 수 있습니다. 종류에 따라 갖게 되는 성격이 다르기 때문에, 데이터 전처리에서 어떠한 방식으로 결측값을 처리할지 결정하기 위해서는 우선 이 종류를 파악해야합니다. MCAR : 결측값의 발생이 다른 ..
[통계] 생존분석:: Stratified Cox proportional hazard model, 층화Cox 비례가정위험모형 제가 관심있는 주제 위주로 포스팅을 하다보니, 내용이 너무 파편화가 되어버리는 듯합니다만... 요새 일이 너무 많다보니 차분하게 정리하기가 어렵습니다. 이해부탁드립니다 ! 오늘의 내용은 간단하지만 꼭 짚고넘어가야할 내용입니다. 바로 생존분석에서 비례위험가정모형이 위반되었을때 많이들 사용하는 층화 Cox (stratified Cox) 관련된 내용입니다. Startified cox 에서는 층화변수 (strata variable) 과 관심변수 (independent variable) 의 interaction term 을 확인을 해줘야합니다. 즉, p > 0.005 에 적합한지 확인을 해줘야하는데요. 만일 interaction 이 유의하게 나온다면, 그렇지 않으면 교호작용 (interaction) 으로 인하여 ..
[통계] 가우스 마코프 정리, Gauss-Markov Theorem 의 정의와 의미 일이 바쁘다보니 포스팅 하기가 상대적으로 간단한 기초 통계를 주로 포스팅 하게 되네요. 오늘의 주제는 통계를 조금이라도 공부를 해보았다면 누구나 들어보았을 가우스 마코프 정리 (Gauss-Markov Theorem) 입니다. 혹시라도 의학통계를 돌리면서도 이 용어를 처음 듣는다면 정말 반성의 시간을 갖도록 합시다. 제 블로그 특성상, 증명 과정을 궁금해하시는 분은 많지 않을 것으로 생각을 하여서 이게 어떤 정리인지.. 또 무슨 의미를 갖는지에 대하여 간단히 적어보겠습니다. 우선, 이 정리의 요점을 말해보자면 ' (어떠한 조건을 만족하는 상황에서는) 최소제곱 추정량이 가장 좋은 비편향(불편) 추정량이다.' 로 정리 할 수 있습니다. 가장 좋은 비편향(불편) 추정량은 영어로 BLUE (Best Linear ..
[통계] 회귀 (regression) 분석에서 설명변수의 고정 미루고 미루었던 .... 너무나 오랜만에 돌아온 기초 통계 포스팅이네요 ㅎㅎ 반성하겠습니다. https://bpapa.tistory.com/49 [통계] 회귀 (regression) 분석에서 비편향 (불편, unbiased) 의 의미와 증명 바쁘다는 핑계로 너무 오랜만의 포스팅이 되었네요. 이번 포스팅의 주제는 바로 회귀분석의 가장 기초적인 부분이라고 할 수 있는 내용입니다. 바로 비편향 혹은 불편. 영어로는 unbiased 라고 하죠. 여기서 비편.. bpapa.tistory.com 오늘은 지난번 포스팅 (비편향, unbiased) 의 말미에 다루었던 내용을 포스팅해보겠습니다. 회귀분석의 기본 가정 중에 하나이죠. '설명변수를 고정한다.' 이 말의 뜻은 표본추출을 할때, $x_1$, $x_2$, $x_..
[통계] 회귀 (regression) 분석에서 비편향 (불편, unbiased) 의 의미와 증명 바쁘다는 핑계로 너무 오랜만의 포스팅이 되었네요. 이번 포스팅의 주제는 바로 회귀분석의 가장 기초적인 부분이라고 할 수 있는 내용입니다. 바로 비편향 혹은 불편. 영어로는 unbiased 라고 하죠. 여기서 비편향 혹은 불편, unbiased 가 의미하는 것이 무엇일까요? 의학 통계를 하시는 분들은 아마 이 말 자체를 처음 들어본 분들도 많이 있으실 겁니다. 이 말을 처음 들어보았다면, 반성의 시간을 갖도록 합시다. ^^; 일단 증명은 추후에 하도록 하고, unbiased 의 의미부터 살펴보기 위해 수식으로 살펴보면 $ E(\hat{\beta}_{1}) = \beta_{1} $ 를 나타냅니다. 즉, 표본에서 구한 $ \hat{\beta}_{1} $ 이라는 추정량은 우리가 구하고자 하는 모수들의 $ \be..
[통계] 중심극한정리, Central Limit Theorem (CLT) 의 정의 중심극한정리. Central Limit Theorem.CLT. 통계를 분석을 시행하는 사람이라면 적어도 한 번 이상은 들어보았을 정리입니다.하지만... 이 부분을 제대로 이해하지 못하고 통계를 수행하는 경우가 상당히 많습니다. 심지어 어떠한 통계책! 에는 '중심극한정리를 표본의 수가 많아지면 그 분포가 정규분포에 근접한다'는 황당한 소리를 적어놓는 경우도 있고,'대수의 법칙, Law of Large Numbers'과 구분을 제대로 못하는 경우도 있습니다. 증명과정까지야 잘 기억은 못하더라도,부끄럽지 않으려면 최소한 어떠한 내용인지는 머리 속에 제대로 남아있어야겠죠? 중심극한정리의 정의는,'표본의 수가 늘어날 수록, 그 표본들의 (표본)평균의 분포가 정규분포에 점점 근사한다.'입니다. 위의 황당한 소리와 ..