본문 바로가기

R_statistics

Residual, 잔차 와 Error, 오차 의 차이 Residual, 잔차 와 Error, 오차 처음에 많이들 헷갈려 하는 개념이죠. 저도 처음에 공부할 때 대충 넘기고, 정확하게 개념을 안잡고 공부하다가... 나중에서야 개념을 잡았던 기억이 있네요. 회귀식을 바탕으로 설명을 해보겠습니다. 회귀식은 대표성을 의미합니다. 즉 모집단을 대표하는 어떠한 직선을 의미하는 것인데... 저희가 모집단을 가지고 있는 경우는 거의 없죠. 그렇기에 모집단을 대표할 수 있는 표본집단을 이용하여, 모집단의 회귀식을 추론하게 됩니다. 여기서 오차와 잔차의 개념이 나옵니다. 즉, 오차 = 모집단의 회귀식에서 예측된 값 - 실제 관측값 잔차 = 표본집단의 회귀식에서 예측된 값 - 실제 관측값 이렇게 이해하시면 됩니다. 여기서 개념을 조금더 확장을 하면, SST = SSR + SS..
Quantile, 분위수 와 Quartile, 4분위수 의 차이 Quantile 이란 random variable X의 분포를 확률적으로 균등하게 (n개로) 자른 개념입니다.* k-th, n-quantile이란 표현은?X의 분포를 확률적으로 n개의 균등한 조각으로 잘랐을때 앞에서부터 k번째 조각까지의 위치를 말하는 것입니다. 즉, 2 quantile = median 4 quantile = quartile에 해당합니다. 처음에는 헷갈릴 수 있는 내용입니다. 저도 한동안은 구분을 잘 못했던 기억이 있네요^^;
[R프로그래밍] 같은 클래스, class 의 열, column 추출하기 x[sapply(x,is.numeric)] x[sapply(x,is.factor)]#x 는 data.frame * 간단한 설명은 다음과 같습니다. 원리는 x 라는 data.frame 에 대하여, sapply 를 적용.그러면 sapply(x, is.numeric) 은 각각의 column 의 class 를 is.numeric 과 비교하여 TURE, FALSE 로 반환.x[a] 는 x 라는 data.frame 에서 a 라는 column 만을 data.frame 형식으로 추출.x[sapply(x, is.numeric)] 에 적용하면, TRUE 값에 해당되는 column 들만 추출하게 된다.
[R프로그래밍] Column 별 결측값 확인 (독립변수 결측값, NA 개수 확인) 보통 임상의사들이 다루게 되는 data 들의 형식은 대부분 data.frame 형식을 가지고 있습니다. 이런 경우 독립변수의 결측값의 갯수를 확인하는 명령어 입니다. (정확히는 각 column 의 결측값 확인 방법이죠.) colSums(is.na(data.frame))