본문 바로가기

R_statistics/Rs_preparation

[R프로그래밍] Text 처리, 텍스트 마이닝 R 에서 Text 를 처리하는 간단한 코드입니다. 일단 이 정도는 하셔야 더 복잡한 처리가 가능해지니...이런게 있다는 것은 머리속에 두셔야 나중에 필요할 때 찾아볼 수 있겠죠?^^ stringr package::str_sub(df$col, start, end) stringr 패키지의 str_sub 은 우리가 지정한 범위의 글자만 남기고 나머지는 날리는 명령어입니다.덧붙여서, 음수를 넣으면 뒤에서부터 글자를 자릅니다. reshape2::colsplit(df$col, split="character", names=c("newvar1", "newvar2") reshape2 의 colsplit 명령어는 특정단어 (알파벳) 을 기준으로 변수를 나누는 명령어 입니다.예를 들어 "visit_1", "visit_2",..
[R프로그래밍] 변수이름을 이용하여 여러열의 변수 종류 class 변경하기 R 로 데이터 프레임을 다루다보면대부분 class 가 잘 맞춰져 있는데 몇몇 변수들만 class 가 맞지 않는 경우가 있습니다. 이러한 경우.즉, 변수이름만을 아는 상태에서 쉽게 그 변수들의 class 를 변경하는 방법을 알아보겠습니다. DF 라는 데이터프레임안에서 A, B, C, D 라는 이름을 갖는 변수 (열) 의 class 를 numeric 으로 변경을 해보도록 하겠습니다.코드는 아래와 같습니다. cname
[R프로그래밍] 조건에 맞는 행 개수 세기 R 데이터 프레임에서 조건에 맞는 행의 갯수를 세는 방법입니다. length(which(DF$c > condition)) length(which(is.na(DF$c))) 위의 코드를 보시면 아시겠지만...간단합니다. which 를 통해서 조건에 맞는 녀석들의 위치를 벡터로 뽑아내고, 그 벡터의 개수를 확인하여 조건에 맞는 행이 몇개 있는지를 확인하는 방법입니다. 1번째 줄의 코드처럼 직접 조건을 걸 수도 있고, 2번째 줄의 코드처럼 결측값이 들어간 녀석들을 추려낼 수도 있습니다. 전체 데이터 프레임에서 우리가 원하는 변수값들이 어느 정도의 결측치를 가지고 있는지 확인할때 사용하시면 편합니다. 도움이 되셨다면, '공감' 버튼 부탁드립니다^^
[R프로그래밍] 변수이름 (변수명) 을 이용하여 열 (변수) 제거 R 데이터프레임에서 변수 이름을 이용하여 변수를 제거 하는 방법입니다. 보통 데이터프레임이 크기 때문에 정확히 몇번째 열이 어떠한 변수인지 기억이 잘안나죠. 그럴때 사용하면 좋은 방법입니다. 코딩은 아래와 같습니다. DF
[R프로그래밍] 변수이름 소문자로 바꾸기 굉장히 간단한 내용이면서, 처음에 R 을 접할 때 고통을 받는 부분이기도 합니다. 보통 raw data 를 받았을 때 변수 이름이 대소문자가 섞여 있으면... 나중에 변수 처리할때 대소문자 때문에 오류가 나오면 짜증이 날 때가 있죠. 그러한 부분을 예방하고자, 모든 변수를 대문자나, 소문자로 바꿀 수가 있습니다. 아래는 모두 소문자로 바꾸는 방법입니다. colnames(DF)
[R프로그래밍] 조건을 만족하는 행 제거 데이터 프레임에서 일정조건을 만족하는 행을 제거 하는 명령어 입니다. df 13df$colum == "male" 이런식으로 말이죠 ! 정말 간단하죠?
[R프로그래밍] 특정열의 이름 (변수 이름) 변경, column name R 에서 데이터처리를 하다보면, 가끔 특정열의 변수이름을 바꾸고 싶을 때가 있습니다.이때 R 에서는 직관적으로 특정열의 변수이름 (특정열의 이름) 을 바꿀 수 있는 옵션이 없습니다. 아래의 코드는 'sample' 이라는 데이터프레임안에 'city' 라는 이름을 가지고 있는 변수의 이름을 'C_NAME' 으로 변경하는 코드입니다.혹시, 전처리 과정에서 놓쳐버려서 R 안에서 변수이름을 변경하고 싶으시다면 아래의 코드를 응용하시면 됩니다. names(sample)[names(sample) == "city"]
[R프로그래밍] 같은 클래스, class 의 열, column 추출하기 x[sapply(x,is.numeric)] x[sapply(x,is.factor)]#x 는 data.frame * 간단한 설명은 다음과 같습니다. 원리는 x 라는 data.frame 에 대하여, sapply 를 적용.그러면 sapply(x, is.numeric) 은 각각의 column 의 class 를 is.numeric 과 비교하여 TURE, FALSE 로 반환.x[a] 는 x 라는 data.frame 에서 a 라는 column 만을 data.frame 형식으로 추출.x[sapply(x, is.numeric)] 에 적용하면, TRUE 값에 해당되는 column 들만 추출하게 된다.