[통계] 결측값의 종류와 처리 방법
오늘의 주제는 통계 분석을 하는 사람의 가장 큰 고민거리 중 하나인 결측값에 대한 내용입니다. R에서 실제로 결측값을 처리하는 방법에 대한 포스팅은 추후에 한번 하도록 하겠으며, 오늘은 결측값에 대한 기본..
bpapa.tistory.com
위의 글과 이어지는 글입니다.
(오랜만의 포스팅이네요.)
결측값을 처리 함에 있어서 여러가지를 고민해야 함을 이전 포스팅에 남겼었죠.
그리고 여러 복잡한 데이터 세트의 경우에는 많은 경우에서 multiple imputation (MI) 이 좋은 결과를 보여준다고 글을 남겼었습니다.
저 포스팅에서 MI가 method of choice 인 조건이 기억나실까요?
(원칙적으로는 MAR 에 해당되고, MNAR 에서도 좋은 결과를 보인다는 논문들이 있습니다.)
그래서 MI 를 한경우에는, MAR assumption 에 대한 analysis 를 추가로 해줘야하는데...
R 에서는 이게 수동작업이라 사실상 전공자가 아니면 수행하기 어렵습니다.
(예전 버전의 R package 가 있긴한데 최근 R 버전에서는 사용이 불가합니다.)
그래서인지 multiple imputation 을 여러 set 으로 만들어서 여러 결과값을 보여주는 등등, 여러가지 대체 방법을 선택하더군요.
이게 통계적으로 맞는건지는 잘 모르겠지만...
아무튼...
오늘 포스팅에서 말하고자하는 내용은
Multiple imputation 은 그냥 적용하면되는게 아니고, 원직적으로는 MAR assumption 에 대한 검증이 필요하다.
가 되겠습니다.
Cox proportional hazard model 과 마찬가지로, Multiple imputation 에서도
최소한의 기본 원칙은 알고 가는게 좋을 것 같아서 포스팅을 남겨봅니다.
'R_statistics > Rs_basic' 카테고리의 다른 글
[통계] 데이터 분석 시 로그 변환, log transformation 이 꼭 필요할까 ? (0) | 2019.12.06 |
---|---|
[통계] 결측값의 종류와 처리 방법 (0) | 2019.12.05 |
[통계] 생존분석:: Stratified Cox proportional hazard model, 층화Cox 비례가정위험모형 (0) | 2019.09.30 |
[통계] 가우스 마코프 정리, Gauss-Markov Theorem 의 정의와 의미 (0) | 2019.09.19 |
[통계] 회귀 (regression) 분석에서 설명변수의 고정 (0) | 2019.09.18 |