본문 바로가기

R_statistics/Rs_preparation

[R프로그래밍] Text 처리, 텍스트 마이닝

R 에서 Text 를 처리하는 간단한 코드입니다. 

일단 이 정도는 하셔야 더 복잡한 처리가 가능해지니...

이런게 있다는 것은 머리속에 두셔야 나중에 필요할 때 찾아볼 수 있겠죠?^^


stringr package::str_sub(df$col, start, end)  

stringr 패키지의 str_sub 은 우리가 지정한 범위의 글자만 남기고 나머지는 날리는 명령어입니다.

덧붙여서, 음수를 넣으면 뒤에서부터 글자를 자릅니다.


reshape2::colsplit(df$col, split="character", names=c("newvar1", "newvar2") 


reshape2 의 colsplit 명령어는 특정단어 (알파벳) 을 기준으로 변수를 나누는 명령어 입니다.
예를 들어 "visit_1", "visit_2", "visit_3" 등등의 단어가 있을 때, 
위의 명령어의 character 에 "_" 이걸 넣으면 visit 과 숫자로 구분되게 됩니다.
주로 우리가 long-form data 에서 follow-up 시점으로 구분할때 사용하게 됩니다.