본문 바로가기

[R프로그래밍] 데이터시각화 with ggplot2::sec_axis, dual axis graph, 2개의 축을 가진 그래프 그리기 데이터를 제시할때, 한개의 그래프 안에 2가지의 자료를 함께 보여주고 싶을 때가 있습니다.이러한 경우, 2가지 자료의 단위 혹은 값이 상당히 다르다면, 한개의 그래프 안에 2개의 자료를 모두 제시하였을 때, 2개의 자료가 따로따로 떨어져서 보여지겠죠? Iris 데이터를 이용하여 Sepal.Length 와 Petal.Length 의 분포를 하나의 그래프에 그린다고 가정해보겠습니다.극적인 효과를 위하여, Petal.Width 의 값을 전체적으로 1/10 로 감소시켜서 그래프를 그려보겠습니다. Sepal.Length 의 분포는 boxplot 을 이용하여 Species 별로 나타내고,Petal.Width 의 분포는 dot plot 을 이용하여 Species 별로 나타내겠습니다. 일반적인 방식으로 나타내면 아래와..
[R마크다운] knitnr:: reproducible research, 재현가능한 연구 with R studio (데이터연동형문서, dynamic document) 재현가능한 연구란 무엇일까요?아주 간단하게 설명하면, 연구의 결과물을 오픈소스로 공개하여 누구라도 검증을 할 수 있도록 하는 것입니다. 이를 위한 조건이 있다면, 바로 데이터 연동형 문서 (dynamic document) 입니다. 구체적으로 적어보자면, 1. 공개한 자료에는 설명문, 코딩, 데이터가 모두 포함되어야 합니다.2. 코딩과 데이터포맷은 무료 소프트웨어를 권장합니다. (비용문제)3. 다른 사람이 코드를 실행하였을 때, 기존의 저자가 작성한대로 동일하게 작동되며, 배포한 문서의 내용과 동일한 결과를 확인할 수 있어야 합니다.4. 데이터는 사용된 데이터 전체가 모두 제공되어야 합니다. 결국, 문서안에 데이터와 분석 방식에 대한 정보 (코드) 와 결과물이 포함되어 누구라도 검증을 할 수 있도록 하는 ..
[R프로그래밍] 코딩폰트 추천 R을 사용하다보면... 코딩용 폰트에 대한 관심이 높아질 수 밖에 없더군요. 저도 수많은 폰트를 거쳐서... 현재는 Monaco 에 정착했습니다. 그동안에 사용해봤던 폰트들의 장단점에 대하여 간략하게 포스팅해볼까 합니다. 1. Consolas Microsoft 에서 제공한 font 로 한동안 사용하였던 폰트입니다. 2. d2 coding 네이버에서 제공한 coding 용 폰트입니다. 이렇게 볼땐 참 예쁘고 한글이 지원되는 장점이 있지만... 결정적인 문제가 글자폭이 너무 좁습니다. 그렇기에 가독성이 엄청나게 떨어지는 단점이 있기에 설치하고 몇시간만에 바로 삭제했었습니다. 3. Roboto Mono 구글에서 제공한 녀석입니다. 이녀석도 깔끔하고 예쁘긴한데... 다만, 뭐랄까... 코딩감성이 조금 부족하다고..
[책] 통계책 추천, 계량경제학강의 제2판 by 한치록 교수님 저는 통계비전공자입니다.그리고 체계적으로 깊이 있게 통계학에 대한 공부를 해본적도 없었구요. 부끄럽지만...선배들에게 어깨넘어로 배우거나, 어떤 책이나 강의들을 짧게나마 듣거나 본 뒤, 요령(?) 만을 배워서 통계 분석을 하고, 논문을 썼었습니다. 그러던 중...우연한 기회에 머신러닝 (machine learning) 강의를 수강하게 되고...거기서 확실하게 느꼈습니다. '아, 첫단추가 잘못 끼워졌구나...' 사실 머신러닝을 공부하기 위해서 수강을 한 것이었지만...기본 통계에 대한 충분한 이해가 없는 상태에서 수행하는 모든 분석은...과장해서 말하면 아무런 쓸모없는 것이라는 걸 깨달았습니다. 데이터전처리, Regularization, Fitting, Kernel 등등에 대한 고민도 없이...(예를 들어..
[책] 통계 비전공자의 R 독학 교재 추천 제목은 거창하지만...제가 R 공부하면서 읽은 책들에 대한 간략한 소개 정도로 생각하시면 될 것 같습니다^^;; 참고로 저는 통계 비전공자입니다. 교재 순서는 제가 구입한 순서입니다. 1. 의학논문 작성을 위한 R 통계와 그래프 문건웅 선생님께서 저술한 책. 이쪽으로는 유명하신 분이라서 저자에대한 설명은 패스합니다. (web-r.org 를 만드신 분입니다.) 제가 R 에 입문을 하면서 처음으로 구입한 책으로, 의학통계 분석에 있어서 실무적으로 많은 도움이 되었습니다. 주로 실무적 내용으로 구성되어있습니다. 그렇기에 R 과 통계의 기초를 다지는 용도로는 독자들이 다들 알거라고 생각하고 간략히 넘어가는 부분들도 제법 많습니다. 덕분에 R 에 처음 입문하는 사람들은 어렵게 느껴지는 부분이 많을 수 있습니다. ..
[통계] 중심극한정리, Central Limit Theorem (CLT) 의 정의 중심극한정리. Central Limit Theorem.CLT. 통계를 분석을 시행하는 사람이라면 적어도 한 번 이상은 들어보았을 정리입니다.하지만... 이 부분을 제대로 이해하지 못하고 통계를 수행하는 경우가 상당히 많습니다. 심지어 어떠한 통계책! 에는 '중심극한정리를 표본의 수가 많아지면 그 분포가 정규분포에 근접한다'는 황당한 소리를 적어놓는 경우도 있고,'대수의 법칙, Law of Large Numbers'과 구분을 제대로 못하는 경우도 있습니다. 증명과정까지야 잘 기억은 못하더라도,부끄럽지 않으려면 최소한 어떠한 내용인지는 머리 속에 제대로 남아있어야겠죠? 중심극한정리의 정의는,'표본의 수가 늘어날 수록, 그 표본들의 (표본)평균의 분포가 정규분포에 점점 근사한다.'입니다. 위의 황당한 소리와 ..
ADSP (데이터분석준전문가) 자격증 시험 후기, 정말 필요할까? R 을 사용하는 사람이거나, 데이터 분석에 관심이 있는 사람이라면 한번쯤은 들어봤을 자격증이죠. ADP (데이터분석전문가) 및 ADSP (데이터분석준전문가) 자격증. 저는 작년 여름에 ADSP 자격증을 취득하고, ADP 는 진행을 하지 않았었습니다. 어차피 제 전공분야도 아니고, 취득하고 나서 자랑할 곳이 없더라구요 ㅎㅎ 시험 준비는 공식교과서와 기출문제집으로만 했었고, 제대로 집중해서 공부한 것은 약 1달정도였던 것 같습니다. 시험 자체가 엄청 어려운 시험은 아니지만, 암기과목이 있어서 관련학과가 아니면 공부하면서 약간 애먹을 수가 있습니다. 이 자격증 따고나니 주변에서 '정말 이 자격증이 도움이 되냐?' 라고 많이들 물어보시더라구요. 제 경험을 간략히 말하자면... 실제 R 사용하는데에는 아무런 도움..
[R프로그래밍] 데이터시각화 with ggplot2::ggsurvplot, ggsurvplot 저장하기, saving ggsurvplot ggsurvplot 은 좋은 명령어죠. ggsurvplot 으로 만든 예쁜 figure 를 논문 제출을 위하여 high dpi 로 저장을 하고 싶을때 하는 방법입니다. 불행히도 일반적인 ggsave 는 먹히지 않습니다.꼼수(?)를 써야하는데요. ㅎㅎ방법은 아래와 같습니다. figure