본문 바로가기

R_statistics

[R프로그래밍] 데이터전처리 intersect:: 벡터에서 중복되는 값 찾기 대규모 데이터들을 처리 하다보면, 여러개의 데이터프레임들을 병합해야하는 경우가 많습니다. 특히나, 의학쪽에서는 혈액검사 관련된 부분들의 항목들의 이름들이 겹치는 부분이 있다보니, 각각의 데이터프레임들을 병합하다보면 중복되는 값들이 생겨버리는 경우가 있습니다. 이럴 경우 변수명들이 겹치는지 확인하기 위해 사용하는 방법이 있습니다. 바로 basic::intersect 함수입니다. 우선 변수명들을 unique 함수로 각각의 함수에서 추출하고, 각각을 독립된 벡터로 지정을 해줍니다. 예를 들어, a 와 b 벡터로 지정을 해주었다면, intersect(a,b) 이렇게 해주시면 중복된 값을 바로 찾아줍니다. 그러면 그 항목만 review 를 해주시면 되겠죠? * 도움이 되셨다면, '공감' 버튼 부탁드립니다^^
[R프로그래밍] ggplot2:: 여러개의 ggsurvplot 합치기 / arrange multiple ggsurvplots ggsurvplot 정말 좋은 graphic tool 입니다. 논문 투고를 준비하다보면... ggsurvplot 을 이용해서 그린 figure 를 하나의 figure 로 합치고 싶을 때가 있습니다. 이럴때 쓰는 코드를 알려드리겠습니다. splots
[R프로그래밍] 데이터시각화 with ggplot2:: annotate 에서 bold 체 사용하기 ggplot 으로 figure 를 그리다보면 그래프 안에 text 를 집어넣을 때가 종종 있습니다. 이럴때 figure 1의 A , B 등으로 구분을 해줘야할 때가 대표적인 예인데요... 이러한 경우에는 text를 bold 로 넣어주면 가독성이 좋아지겠죠? 그래서 오늘 포스팅할 내용은 ggplot::annotate 로 bold 체 글씨를 쓰는 방법입니다. ggplot (df, aes(...))+ annotate("text", ~~~~ , fontface=2) 위의 2번째 코드에서 fontface 보이시죠? 이 값을 2로 지정해주면 bold 체로 지정되게 됩니다. 참 쉽죠 ? * 이 포스팅이 도움이 되셨다면 '공감' 버튼 부탁드립니다.
[통계] 생존분석:: Stratified Cox proportional hazard model, 층화Cox 비례가정위험모형 제가 관심있는 주제 위주로 포스팅을 하다보니, 내용이 너무 파편화가 되어버리는 듯합니다만... 요새 일이 너무 많다보니 차분하게 정리하기가 어렵습니다. 이해부탁드립니다 ! 오늘의 내용은 간단하지만 꼭 짚고넘어가야할 내용입니다. 바로 생존분석에서 비례위험가정모형이 위반되었을때 많이들 사용하는 층화 Cox (stratified Cox) 관련된 내용입니다. Startified cox 에서는 층화변수 (strata variable) 과 관심변수 (independent variable) 의 interaction term 을 확인을 해줘야합니다. 즉, p > 0.005 에 적합한지 확인을 해줘야하는데요. 만일 interaction 이 유의하게 나온다면, 그렇지 않으면 교호작용 (interaction) 으로 인하여 ..
[R프로그래밍] 데이터시각화 with ggplot2:: 그래프 예쁘게 그리기, 경계선 지우기 오늘 포스팅은 간단하면서도 상당히 유용한 포스팅입니다. figure 작성을 할때 보통 예쁘다는 figure 들은 x축과 y축은 조금 두껍게 표시되고, 나머지 line 은 제거해버리는 경우가 많죠. 개인적으로는 NEJM 에 실리는 figure 들이 예쁜 녀석들이 많다고 생각하는데 그녀석들처럼 ggplot 에서 그렇게 margin 과 grid 를 제거해버리는 코드는 다음과 같습니다. 참 쉽죠? library(ggplot2) ggplot(aes(...))+ theme_bw()+ theme(axis.line = element_line(size=1), axis.ticks = element_line(size=1), panel.border = element_blank(), panel.grid.major = eleme..
[통계] 가우스 마코프 정리, Gauss-Markov Theorem 의 정의와 의미 일이 바쁘다보니 포스팅 하기가 상대적으로 간단한 기초 통계를 주로 포스팅 하게 되네요. 오늘의 주제는 통계를 조금이라도 공부를 해보았다면 누구나 들어보았을 가우스 마코프 정리 (Gauss-Markov Theorem) 입니다. 혹시라도 의학통계를 돌리면서도 이 용어를 처음 듣는다면 정말 반성의 시간을 갖도록 합시다. 제 블로그 특성상, 증명 과정을 궁금해하시는 분은 많지 않을 것으로 생각을 하여서 이게 어떤 정리인지.. 또 무슨 의미를 갖는지에 대하여 간단히 적어보겠습니다. 우선, 이 정리의 요점을 말해보자면 ' (어떠한 조건을 만족하는 상황에서는) 최소제곱 추정량이 가장 좋은 비편향(불편) 추정량이다.' 로 정리 할 수 있습니다. 가장 좋은 비편향(불편) 추정량은 영어로 BLUE (Best Linear ..
[통계] 회귀 (regression) 분석에서 설명변수의 고정 미루고 미루었던 .... 너무나 오랜만에 돌아온 기초 통계 포스팅이네요 ㅎㅎ 반성하겠습니다. https://bpapa.tistory.com/49 [통계] 회귀 (regression) 분석에서 비편향 (불편, unbiased) 의 의미와 증명 바쁘다는 핑계로 너무 오랜만의 포스팅이 되었네요. 이번 포스팅의 주제는 바로 회귀분석의 가장 기초적인 부분이라고 할 수 있는 내용입니다. 바로 비편향 혹은 불편. 영어로는 unbiased 라고 하죠. 여기서 비편.. bpapa.tistory.com 오늘은 지난번 포스팅 (비편향, unbiased) 의 말미에 다루었던 내용을 포스팅해보겠습니다. 회귀분석의 기본 가정 중에 하나이죠. '설명변수를 고정한다.' 이 말의 뜻은 표본추출을 할때, $x_1$, $x_2$, $x_..
[R프로그래밍] 데이터시각화 with ggplot2:: geom_histogram, 히스토그램 in R 이리저리 논문작업에 치어살다보니... 포스팅 할 시간은 점점 줄어드네요. 최근엔 manuscript 작성에 신경을 쓰다보니 사실 R graphics 쪽은 거의 손을 놓고 있었습니다. 덕분에 간단하게 하던 작업들도 기억이 안나서 reference 들을 찾아보게 되네요. 그래서 오늘 포스팅 내용은 아주 간단하지만 데이터 분포를 확인하는데 아주 유용한, 히스토그램, histogram 을 ggplot2 를 이용하여 작성하는 방법을 알아보겠습니다. ggplot2(dataframe, aes(x= ooo ))+ geom_histogram() 위의 coding 이 가장 기본적인 coding 입니다. ggplot2 에서 dataframe 을 지정하여 주고, aes 를 이용하여 x 축을 원하는 변수로 mapping 시켜 ..