위의 글과 이어지는 글입니다.
(오랜만의 포스팅이네요.)
결측값을 처리 함에 있어서 여러가지를 고민해야 함을 이전 포스팅에 남겼었죠.
그리고 여러 복잡한 데이터 세트의 경우에는 많은 경우에서 multiple imputation (MI) 이 좋은 결과를 보여준다고 글을 남겼었습니다.
저 포스팅에서 MI가 method of choice 인 조건이 기억나실까요?
(원칙적으로는 MAR 에 해당되고, MNAR 에서도 좋은 결과를 보인다는 논문들이 있습니다.)
그래서 MI 를 한경우에는, MAR assumption 에 대한 analysis 를 추가로 해줘야하는데...
R 에서는 이게 수동작업이라 사실상 전공자가 아니면 수행하기 어렵습니다.
(예전 버전의 R package 가 있긴한데 최근 R 버전에서는 사용이 불가합니다.)
그래서인지 multiple imputation 을 여러 set 으로 만들어서 여러 결과값을 보여주는 등등, 여러가지 대체 방법을 선택하더군요.
이게 통계적으로 맞는건지는 잘 모르겠지만...
아무튼...
오늘 포스팅에서 말하고자하는 내용은
Multiple imputation 은 그냥 적용하면되는게 아니고, 원직적으로는 MAR assumption 에 대한 검증이 필요하다.
가 되겠습니다.
Cox proportional hazard model 과 마찬가지로, Multiple imputation 에서도
최소한의 기본 원칙은 알고 가는게 좋을 것 같아서 포스팅을 남겨봅니다.
'R_statistics > Rs_basic' 카테고리의 다른 글
[통계] 데이터 분석 시 로그 변환, log transformation 이 꼭 필요할까 ? (0) | 2019.12.06 |
---|---|
[통계] 결측값의 종류와 처리 방법 (0) | 2019.12.05 |
[통계] 생존분석:: Stratified Cox proportional hazard model, 층화Cox 비례가정위험모형 (0) | 2019.09.30 |
[통계] 가우스 마코프 정리, Gauss-Markov Theorem 의 정의와 의미 (0) | 2019.09.19 |
[통계] 회귀 (regression) 분석에서 설명변수의 고정 (0) | 2019.09.18 |