로지스틱 회귀분석의 해석
로지스틱 회귀분석의 해석을 할 경우에 특히 범주형 변수가 있는 경우에 해석은 먼저 독립변수들의 수준을 알아야 합니다.
독립변수 : edu 교육수준(1무학,2초졸,3중졸이상)/
사회계층sc(1,2,3)
주택소유hour (1,2)
독립변수는 위와 같은 형태로 되어 있습니다.
이때 중요한 것은 독립변수의 수준에서 어떤 한 가지를 기준으로 잡아야 한다는 것입니다.
SPSS 에서는 기본적으로 마지막 값을 기준으로 잡아줍니다. 옵션을 주면 처음 값으로 바꿔줄 수도 있습니다.
이 경우 교육수준은 1,2,3 으로 입력을 했기 때문에 마지막 값이 3. 중졸이상이 기준으로 잡힌 것입니다. 사회계층 3, 주택소유는 2가 되겠네요.
그것에 대한 설명이 바로 아래 표의 결과입니다.
파러미터 코딩
(1) (2)
----------------------------------------
NEW_EDU 1 1 0
2 0 1
3 0 0
NEW_SC 1 1 0
2 0 1
3 0 0
NEW_HOUR 1 1
2 0
이 표에서 보면 파러미터 코딩이라는 것이 있습니다. 그리고, 그 값이 1 또는 0 으로 되어 있는 것을 확인할 수 있습니다. 이 표를 제대로 이해하려면 회귀분석에서 더미변수에 대해서 이해를 해야 합니다.
더미변수는 수준수 -1 개가 필요하므로 교육수준이 3개 이었으므로 2개가 생깁니다.
위 표에서 New_Edu 가 교육 수준이므로, 파러미터(더미변수)가 2개 생성됩니다. 자세히 보면 교육수준의 값이 3 일 때 파러미터 값이 0 0 으로 되어 있습니다. 이것이 바로 기준값의 의미합니다. 그리고, 교육수준 1은 파러미터 값이 1, 0으로 되어 있고 표시를 New_Edu(1)로 표시합니다. 그럼 New_Edu(2)는 교육수준 2를 의미하는 것이 됩니다.
이제 분석 결과를 가지고 해석을 해 보면
B 유의확률 Exp(B)
-----------------------------------------------------------------
NEW_SC .000
NEW_SC(1) -.625 .004 .535
NEW_SC(2) -.068 .755 .934
NEW_EDU .000
NEW_EDU(1) -.836 .000 .433
NEW_EDU(2) -.611 .000 .543
NEW_HOUR(1) -.183 .003 .833
분석 결과중에서 가장 중요한 일부만 표로 실었습니다.
결과중에서 New_Edu는 3개가 나옵니다. New_Edu 는 기준값이 중졸이상을 의미하며, New_Edu(1)는 파러미터 (1)을 의미하므로 1. 무학을 뜻합니다. 그리고, New_Edu(2)는 초졸을 뜻하게 되는 것이죠.
그러네, New_Edu 에는 유의확률이나 Exp(B) 값이 없습니다. 이것은 당연한 것으로 중졸을 기준값이 중졸과 비교를 할 수 없습니다. 자기 자신이기 때문이죠. 그래서, 값이 없습니다.
New_Edu(1)의 p 값은 0.000 으로 나와 있습니다. 이것은 유의하다라는 것이므로 New_Edu(1)은 유의하다(유의한 영향을 준다)라는 것입니다. 이때 New_Edu(1)은 무학을 의미하므로 무학은 유의하다라는 것이다. 이말이 뜻하는 궁극적인 것이 무엇인가를 생각하면 무학은 기준값보다 유의하다라는 것입니다.
무학은 중졸이상보다 _____ 이렇게 유의하다라는 것입니다. 즉, 무학과 중졸이상은 차이가 있다라는 것을 의미하는 것이죠. 이때 ____ 에 해당하는 것이 바로 B 입니다. 이 값이 + 이면, 무학이 중졸보다 높다는 것이고, - 이면 무학이 중졸보다 낮다는 것을 의미합니다.
그러므로, 결과를 보면 다음과 같이 해석을 할 수 있습니다.
-.836 이므로, 무학이 중줄이상보다 건강평가가 낮다(1. 나쁘다, 2. 좋다)라는 것입니다. 로지스틱 회귀분석이 다른 분석기법보다 해석이 어려운 이유는 독립변수 뿐만이 아니라 종속변수도 같이 고려해 주어야 한다는 것입니다. 종속변수 역시 기준값은 0, 궁극적으로 알고 싶은 것은 1로 입력을 하는 것이 좋습니다. 이 경우에는 1, 2로 입력을 했는데,
원래 값 내부 값
------------------------------
1 0
2 1
출력 결과중에 종속변수를 다음과 같이 처리했다는 것을 알 수 있습니다. 즉, 1. 나쁘다를 0(기준)으로 놓았다는 것이고, 2. 좋다를 1로 바꾸어서 분석을 했다는 것이죠.
따라서, 이 모든 상황을 고려한 최종적인 해석은 다음과 같습니다.
" 무학이 중졸이상보다 건강평가를 좋게할 가능성이 더 낮다(B=-.836) "
----------------------------------------------------------------------------------------------
이 됩니다. 이 말은 결국, 초졸이 중졸이상보다 건강평가를 나쁘게 한다, 거꾸로 말하면 중졸이상이 초졸보다 건강평가를 좋게한다가 되는 것이죠.
또 한가지, 로지스틱 회귀에서는 OR(Odds Ratio : 교차비, 승산비) 이라고 하는 값에 대한 해석을 중요시합니다. 이 값은 우리가 뉴스에서 보다보면
흡연을 하는 사람이 그렇지 않은 사람보다 폐암에 걸릴 가능성이 2.3배 더 높다
-----
라는 말을 합니다. 여기서 2.3배라고 하는 것이 바로 OR 값입니다. SPSS 출력물에서는 Exp(B)로 표시를 합니다.
이 경우 OR 값이 .433 이르로
" 무학이 중졸이상보다 건강평가를 좋게할 가능성은 .433 배 이다 "
----------------------------------------------------------------------------------------
입니다. 이 값이 1 보다 크면 해석을 하는데, 쉬운데 1 보다 작기 때문에 애매합니다. 1 보다 크다는 것은 그만큼 더 많다는 것이고, 1 보다 작은 값은 적다는 것을 의미하죠. 이런 경우에는 역수를 취해서 생각을 하면 쉽습니다.
" 중졸이상이 무학보다 2.309(1/0.433=2.309)배 건강평가를 좋게 한다 "
----------------------------------------------------------------------------------------------
가 됩니다. 2.309(1/0.433=2.309)
기존 StatEdu 렉쳐 글을 통계컬럼으로 이전했습니다. 원문: http://www.statedu.com/lecture/262366

댓글
로그인 후 댓글을 남길 수 있습니다.