생존분석을 공부하다가 '파라메트릭' 모형, '비파라메트릭' 모형과 같은 개념이 등장했다.
단순하게 parameter가 있는 모델이겠니~, 학습이 되는 모델이구나~ 생각하고 넘겼으나, 그것과는 다른 개념이었다.
결론부터 말하자면,
'데이터가 특정 분포를 따른다는 가정의 유무'로 나뉜다.
즉, 어떤 모델이 데이터가 특정 분포를 따른다는 가정이 있다면 parametric model, 아니면 non-parametric model이다.
예를들면,
선형 회귀 모델에서 우리는 데이터가 '선형 관계'를 가진다고 가정하고, 기울기와 절편이라는 두개의 파라미터를 추정한다.
이는 모형의 구조가 고정되어 있고, 소수의 파라미터로 그 분포를 정의하는 것이다.
이는 정규분포, 포아송분포, 이항분포 등의 형태를 가정할 수 있음!
다른 모델로는 로지스틱 회귀, t-test, ANOVA 등과 같은 통계 모델도 해당된다.
반면 non-parametric model은,
데이터가 특정 분포를 따른다고 가정하지 않고, 대신 데이터 자체로부터 모형을 직접 추정한다.
따라서 parameter의 수는 고정되어 있지 않고, 데이터의 크기에 따라 달라질 수 있다.
예를들면,
SVM, kNN, 의사결정나무, 딥러닝 기반의 모델들이 이에 해당한다.
이런 개념은 생존분석에서
카플란-마이어 추정은 non-parametric model(비모수적 모델)로써, 특정 분포를 가정하지 않고 생존함수를 추정한다.
반면, 콕스 비례위험 모형은 semi-parametric model(반모수적 방법)으로, 생존 시간에 영향을 미치는 변수들을 분석한다.
이 모형은 비례 위험 가정('기준 위험 함수가 전 구간에 대해 일정하다'라는 가정)을 바탕으로 변수들의 상대적 위험 비를 추정하기 때문에 parametric 하지만,
설명 변수와 회귀 계수 β의 선형 결합 형태를 가정하기 때문에, 설명 변수와 관련된 부분은 non-parametric으로 모델링된다.
끝!!