로지스틱 회귀분석과 의사결정나무 분석
교수님, 안녕하세요.
석사학위논문을 진행하던 중 궁금한 점이 있어 문의드립니다.
1. SPSS 의사결정나무 분석과 로지스틱 회귀분석 비교 분석 연구
연구 대상자는 총 963명이며, 변수는 40개입니다. 종속변수를 0과 1로 설정하였을 때, 1에 해당하는 대상자는 313명입니다. 우선, T-test와 카이제곱 검정을 통해 유의한 변수를 선별한 후, 이를 의사결정나무 분석에 투입하였습니다. 분석 결과, SPSS에서 제시된 분류표상의 정확도는 70.5%, 그리고 직접 계산한 민감도와 특이도는 각각 57.4%와 73.9%로 나타났습니다. 한편, 로지스틱 회귀분석을 시행한 결과, 민감도 61.4%, 특이도 73.5%, 정확도 71.4%로 분석되었습니다.
현재까지 비슷한 주제의 선행연구가 없어 참고할 자료가 부족한 상태인데, 이 정도의 평가지표로도 연구를 진행해도 괜찮은지, 만약 현재 수치가 연구를 진행하기에 너무 낮다면, 민감도, 특이도, 정확도를 향상시킬 수 있는 방법이 있을지도 조언을 구하고자 합니다.
2. SPSS 로지스틱 회귀분석으로 예측요인 기반 스코어링 시스템 개발 연구
(회귀 계수 소수점 첫째자리에서 반올림하여 점수를 부여하는 방법으로)
선행연구에서 C-statistic 0.75, sensitivity 0.74였습니다. 제가 만든 스코어링 시스템의 Validation set(80%) C-statistic 0.685, sensitivity 0.802, Test set(20%) C-statistic 0.654, sensitivity 0.817로 분석되었는데, 이 정도의 평가지표로도 연구를 진행해도 괜찮은지, 보통 C-statistic과 sensitivity가 몇 이상은 되어야한다는 기준이 있는지, C-statistic과 sensitivity를 향상시킬 수 있는 방법이 있는지 궁금합니다.
또한, 변수의 cut off를 설정할 때 ①선행연구를 기준으로 나누는 것(예를 들어, 선행연구에서 Age를 68세 기준으로 하여 68세 이상일 때 1점, 68세 미만일 때 0점으로 부여) ②내 data의 cut off 기준으로 나누는 것(예를 들어, 내 data Age cut off는 70세)의 방법 중 어느 것으로 하는 것이 더 나은 방법인지 궁굼합니다.
바쁘시겠지만 검토해 주시면 감사하겠습니다.
댓글
이일현 (2025-04-05 17:51:57)
1. 가능합니다.
다만 로지스틱 회귀분석에서는 분석 후에 ROC curve 를 이용해서 절단점(cut-off value)를 찾아서 민감도, 특이도, 정확도를 계산하는 것이 좋습니다.
2. ROC curve 상의 기준은 있습니다.
통계분석 강좌 - [지수기준] AUC (ROC curve)
현재 결과 자체로는 괜찮은 편입니다.
Legacy document_srl: 306314 / Legacy URL: http://www.statedu.com/QnA/306314

댓글