어떠한 변수를 4분위수를 이용하여 4개의그룹으로 만들고 싶을 때가 있습니다.
(4개의 그룹의 n 수가 동일하게...)
이때 사용하면 좋은 함수로 데이터 전처리 과정에서 자주 쓰입니다.
방법은 아래와 같습니다.
dplyr 패키지에 포함되어 있는 ntile 함수를 사용하게 됩니다.
dplyr::ntile
ntile(df, n)
mutate 와 함께 쓰면, 쉽게 quartile column 을 추가할 수 있습니다.
다음은 예시입니다.
df 라는 데이터프레임에 x 라는 변수를 4분위수를 이용하여 grouping 하고 싶을 때,
df<- df %>%
mutate(quartile = ntile(df$x, 4))
위의 코드를 사용하시면 df 라는 데이터프레임에 quartile 이라는 이름의 column (4개로 grouping 된 변수)이 새로 생성되게 됩니다.
도움이 되셨다면, '공감' 버튼 부탁드립니다^^
'R_statistics > Rs_preparation' 카테고리의 다른 글
[R프로그래밍] 데이터전처리 intersect:: 벡터에서 중복되는 값 찾기 (0) | 2019.11.06 |
---|---|
[R프로그래밍] 데이터전처리 stringr:: 문자, 텍스트, str_split, 변수 이름 나누기, (1) | 2019.03.22 |
[R프로그래밍] factor, 범주형 변수들의 level 설정하기 (0) | 2019.02.27 |
[R프로그래밍] Text 처리, 텍스트 마이닝 (0) | 2019.02.20 |
[R프로그래밍] 변수이름을 이용하여 여러열의 변수 종류 class 변경하기 (0) | 2019.02.18 |