본문 바로가기

R_statistics/Rs_preparation

[자동화함수] imputation 함수 myimpute 0 ){ x[,i]
[R프로그래밍] 데이터전처리:: log-transformation in R (R에서 로그 변환) 아주 간단한 포스팅입니다. R 에서 데이터 전처리 과정 중에 log-transformation 을 하는 코드를 간단히 살펴보겠습니다. 코드는 다음과 같습니다. df$logcr
[R프로그래밍] 데이터전처리:: R 에서 package 불러올때 tip 오늘의 내용은 아주 기본적인 내용입니다. R 에서 package 를 불러올때, 보통 library() 혹은 require() 사용하게 됩니다. '패키지를 불러오는 중입니다....' 등등의 여러 메시지들이 console 창에 불러지는데요. 이 보기 싫은 메시지들을 출력되지 않게 하는 방법을 알려드리겠습니다. suppressMessages({ library(mice) library(VIM) library(Amelia) library(missForest) library(Hmisc) }) 핵심은 위의 supressMessages() 명령어가 되겠습니다. 사실 별거 아닌 내용이긴 한데 불러오는 package 가 많아질수록... 이게 불편해지는 경우가 생깁니다 그럴때 사용하시면 쾌적하게 R 을 사용하실 수 있겠죠?..
[R프로그래밍] 데이터전처리 unique:: 중복값처리 R Basic::unique 함수는 많이들 사용을 해보셨을 겁니다. unique 함수 내에서 아주 유용한 기능이 있어서 하나 소개해드릴까 싶습니다. 그 기능은 다름아닌, fromLast 인데요. 이 기능은 unique 함수로 값들을 추릴때, 중복된 값들이 여러개 있으면, 가장 마지막 행만 남기고 없애는 기능입니다. 이 기능을 아주 약간만 응용하면 last visit 이나 first visit 때의 값만을 남기고 모든 중복 측정값을 제거할 수 있습니다. a 라는 data.frame 이 있을 때. visit time 을 vt 라는 변수에 저장해 두었다고 하고, 식별자는 id 라고 가정을 하고 아래의 코드를 입력한다면 어떠한 결과가 나올까요? a
[R프로그래밍] 데이터전처리 intersect:: 벡터에서 중복되는 값 찾기 대규모 데이터들을 처리 하다보면, 여러개의 데이터프레임들을 병합해야하는 경우가 많습니다. 특히나, 의학쪽에서는 혈액검사 관련된 부분들의 항목들의 이름들이 겹치는 부분이 있다보니, 각각의 데이터프레임들을 병합하다보면 중복되는 값들이 생겨버리는 경우가 있습니다. 이럴 경우 변수명들이 겹치는지 확인하기 위해 사용하는 방법이 있습니다. 바로 basic::intersect 함수입니다. 우선 변수명들을 unique 함수로 각각의 함수에서 추출하고, 각각을 독립된 벡터로 지정을 해줍니다. 예를 들어, a 와 b 벡터로 지정을 해주었다면, intersect(a,b) 이렇게 해주시면 중복된 값을 바로 찾아줍니다. 그러면 그 항목만 review 를 해주시면 되겠죠? * 도움이 되셨다면, '공감' 버튼 부탁드립니다^^
[R프로그래밍] 데이터전처리 stringr:: 문자, 텍스트, str_split, 변수 이름 나누기, R의 가장큰 장점이라면, 자연어 처리가 가능하다는 것이겠죠? 바로 예시로 들어가보겠습니다. #1단계 - 예시 데이터 프레임 만들기 names
[R프로그래밍] 4분위 그룹 만들기, quartile grouping 어떠한 변수를 4분위수를 이용하여 4개의그룹으로 만들고 싶을 때가 있습니다.(4개의 그룹의 n 수가 동일하게...) 이때 사용하면 좋은 함수로 데이터 전처리 과정에서 자주 쓰입니다. 방법은 아래와 같습니다.dplyr 패키지에 포함되어 있는 ntile 함수를 사용하게 됩니다. dplyr::ntile ntile(df, n) mutate 와 함께 쓰면, 쉽게 quartile column 을 추가할 수 있습니다. 다음은 예시입니다.df 라는 데이터프레임에 x 라는 변수를 4분위수를 이용하여 grouping 하고 싶을 때, df% mutate(quartile = ntile(df$x, 4)) 위의 코드를 사용하시면 df 라는 데이터프레임에 quartile 이라는 이름의 column (4개로 grouping 된 변수..
[R프로그래밍] factor, 범주형 변수들의 level 설정하기 R 에서 데이터프레임을 다루다보면, factor 들의 level 이 우선적으로 알파벳 순서를 따라가기 때문에, 저희가 원하는 factor 들의 순서로 먹히지 않는 경우가 종종 있습니다. 일례로, "Yes" 와 "No" 로 구성된 factor 가 있다면, No 가 reference (기준 범주) 로 설정되게 됩니다. 이러한 경우에 factor 들의 level 을 우리가 원하는 방식으로 설정을 해줘야겠죠? 바로 오늘 포스팅의 내용입니다. data 는 iris data 를 이용할 것이며, iris 의 Species 변수의 level 를 저희가 원하는 대로 변경을 해보겠습니다. 일단, iris data 를 불러와서, Species 의 기본 level 을 살펴보겠습니다. data(iris) levels(iris$..