본문 바로가기

R_statistics/Rs_basic

[R프로그래밍] 데이터전처리:: multiple imputation 에 대하여

https://bpapa.tistory.com/65

 

[통계] 결측값의 종류와 처리 방법

오늘의 주제는 통계 분석을 하는 사람의 가장 큰 고민거리 중 하나인 결측값에 대한 내용입니다. R에서 실제로 결측값을 처리하는 방법에 대한 포스팅은 추후에 한번 하도록 하겠으며, 오늘은 결측값에 대한 기본..

bpapa.tistory.com

위의 글과 이어지는 글입니다.
(
오랜만의 포스팅이네요.)

결측값을 처리 함에 있어서 여러가지를 고민해야 함을 이전 포스팅에 남겼었죠. 
그리고 여러 복잡한 데이터 세트의 경우에는 많은 경우에서 multiple imputation (MI) 이 좋은 결과를 보여준다고 글을 남겼었습니다. 

저 포스팅에서 MI가 method of choice 인 조건이 기억나실까요?
(원칙적으로는 MAR 에 해당되고, MNAR 에서도 좋은 결과를 보인다는 논문들이 있습니다.)

그래서 MI 를 한경우에는, MAR assumption 에 대한 analysis 를 추가로 해줘야하는데...
R 에서는 이게 수동작업이라 사실상 전공자가 아니면 수행하기 어렵습니다. 
(예전 버전의 R package 가 있긴한데 최근 R 버전에서는 사용이 불가합니다.)

그래서인지 multiple imputation 을 여러 set 으로 만들어서 여러 결과값을 보여주는 등등, 여러가지 대체 방법을 선택하더군요.
이게 통계적으로 맞는건지는 잘 모르겠지만...
아무튼...

오늘 포스팅에서 말하고자하는 내용은
Multiple imputation 은 그냥 적용하면되는게 아니고, 원직적으로는 MAR assumption 에 대한 검증이 필요하다.  
가 되겠습니다.

Cox proportional hazard model 과 마찬가지로, Multiple imputation 에서도 
최소한의 기본 원칙은 알고 가는게 좋을 것 같아서 포스팅을 남겨봅니다.