본문 바로가기

분류 전체보기

[생존분석] 중도절단, censoring 의 이해 (1) 생존분석에 대한 더 깊은 공부를 들어가기 전에 우선적으로 이해해야하는 개념이 있습니다. 바로 중도절단입니다.이 개념은 Cox 분석과도 이어지기 때문에 꼭 이해를 하셔야합니다. 우선, 이번 포스팅에서는 중도 절단의 종류에 대하여 알아보겠습니다. 1-1. 제1형 우중도절단 정해진 시간, $ C $ 까지 관측되었을 때 사건이 발생하지 않는 경우를 의미합니다. 즉, 정해진 기간동안 관측되었지만 event 를 경험하지 않는 경우입니다. 모든 대상에 대한 우중도절단시간이 동일합니다. 1-2. 제2형 우중도절단 미리 결정해놓은 사건발생률에 도달되었을 때, 관측을 중단하는 경우입니다. 예를 들어 30% 발생률을 정해놓고, 전체 대상에서 30% 에서 event 가 발생하면 관측을 중단하는 경우입니다. 1-3. 임의 우중..
티스토리, 예쁘게 R 코드 넣는 (삽입) 방법 with prismjs 귀찮아서... 하이라이트 코드는 넣지 않으리라 생각했지만...아무리 봐도 도무지 예쁘지 않아서... 결국은 포스팅에 예쁜 코딩을 넣기로 결정하였습니다.안하려고 했는데 블로그를 유지하기로 결정하면서 결국 LaTex 및 코딩관련 지식을 공부하게 되네요. 일단 티스토리에 코드를 넣을 때 많이 쓰는 녀석들은1. SyntaxHighlight2. Highlight.js3. Prism.js이 3개로 요약할 수 있습니다. 다만, 문제는 공식적으로 R 언어를 지원하는 녀석은 Prism.js 이녀석밖에 없는 것으로 알고 있습니다.그래서 뭐 선택지가 없죠. 다른 포스팅에서 highlight.js 와 prism.js 를 섞어서 더 예쁘게 표현하는 포스팅도 발견은 했지만...귀찮기도 하고... 굳이 그렇게까지 하고 싶진 않아서..
시그마, Sum 첨자 아래로 내리는 방법 LaTex 는 절대 안 배우리라 생각했었는데...역시 제 생각대로 돌아가는 일은 없네요 ! ㅎㅎ 종종 공부하는대로 LaTex 관련 글도 써보도록 하겠습니다.오늘 포스팅할 내용은 바로 시그마, \Sum 첨자 아래로 내리는 방법입니다. \sum_{k\in\mathbb{Z}}위와같이 기입을 하면 아래와 같이 아래첨자가 우측하단에 붙게 됩니다.$\sum_{k\in\mathbb{Z}} $ 이 문제를 해결하기 위한 방법은 아래와 같습니다.\sum\limits_{k\in\mathbb{Z}}$\sum\limits_{k\in\mathbb{Z}} $ 간단하죠 ?^^
[R프로그래밍] 특정열의 이름 (변수 이름) 변경, column name R 에서 데이터처리를 하다보면, 가끔 특정열의 변수이름을 바꾸고 싶을 때가 있습니다.이때 R 에서는 직관적으로 특정열의 변수이름 (특정열의 이름) 을 바꿀 수 있는 옵션이 없습니다. 아래의 코드는 'sample' 이라는 데이터프레임안에 'city' 라는 이름을 가지고 있는 변수의 이름을 'C_NAME' 으로 변경하는 코드입니다.혹시, 전처리 과정에서 놓쳐버려서 R 안에서 변수이름을 변경하고 싶으시다면 아래의 코드를 응용하시면 됩니다. names(sample)[names(sample) == "city"]
[생존분석] Cox proportional hazard model, Cox 비례가정위험모형 (1) 의학논문을 쓰는 분들이라면,한번쯤은 사용해보았을 Cox proportional hazard model 에 대한 이야기입니다. 사실 부끄러운 이야기지만... 많은 의사들은 사실 Cox model 의 적절한 이해가 없이 Cox model 분석 적용합니다.그에 대한 회의감으로 공부를 시작했었던 기억이 납니다. Cox model 분석은 하고싶은 말이 많기 때문에 몇 개의 포스팅으로 나누어질 예정입니다.그럼 시작해볼까요? ^^ 1. Cumulative Distribution Function (CDF)$ F(t) = Pr (t \leqq T) $ 특정시점에 이르기까지 사망률의 총합 즉,$ S(t) = 1-F(t) $ 는 특정시점까지 생존확률의 총합을 의미합니다. 2. Probability Density Functi..
Residual, 잔차 와 Error, 오차 의 차이 Residual, 잔차 와 Error, 오차 처음에 많이들 헷갈려 하는 개념이죠. 저도 처음에 공부할 때 대충 넘기고, 정확하게 개념을 안잡고 공부하다가... 나중에서야 개념을 잡았던 기억이 있네요. 회귀식을 바탕으로 설명을 해보겠습니다. 회귀식은 대표성을 의미합니다. 즉 모집단을 대표하는 어떠한 직선을 의미하는 것인데... 저희가 모집단을 가지고 있는 경우는 거의 없죠. 그렇기에 모집단을 대표할 수 있는 표본집단을 이용하여, 모집단의 회귀식을 추론하게 됩니다. 여기서 오차와 잔차의 개념이 나옵니다. 즉, 오차 = 모집단의 회귀식에서 예측된 값 - 실제 관측값 잔차 = 표본집단의 회귀식에서 예측된 값 - 실제 관측값 이렇게 이해하시면 됩니다. 여기서 개념을 조금더 확장을 하면, SST = SSR + SS..
Quantile, 분위수 와 Quartile, 4분위수 의 차이 Quantile 이란 random variable X의 분포를 확률적으로 균등하게 (n개로) 자른 개념입니다.* k-th, n-quantile이란 표현은?X의 분포를 확률적으로 n개의 균등한 조각으로 잘랐을때 앞에서부터 k번째 조각까지의 위치를 말하는 것입니다. 즉, 2 quantile = median 4 quantile = quartile에 해당합니다. 처음에는 헷갈릴 수 있는 내용입니다. 저도 한동안은 구분을 잘 못했던 기억이 있네요^^;
블로그 시작이 늦어졌네요. 처음에 거창하게 포스팅을 남겼을 때와는 달리... 생각보다 블로그 운영을 시작하게 되는 것이 늦어졌네요.뭐 여러가지 사정이 있었지만...아무튼, 최근에서야 생각이 정리되었습니다. 일단은 R 에 대한 글로 이 블로그는 채워질 것 같습니다만...Notice 에 있는 것과는 다르게... LaTex 는 당분간 아마 공부를 하지 않을 듯 합니다.그 대신 Machine Learning 이 그 공간을 차지하게 될 것으로 예상 하고 있습니다.Doodle 카테고리는 평상시 느끼게 되는 소소한 생각들로 채워볼까 생각 중입니다. 그리고, 블로그를 방문하시는 분들께 드리고 싶은 부탁이 하나 있습니다.통계 전문가도 아니고, 프로그래머도 아니다 보니...부족한 부분이 많을 수 밖에 없습니다. 부족한 내용이지만, 제가 포스팅을 남..