통계컬럼

회귀계수가 이상하게 나오는 경우

분류: 렉쳐 글쓴이: StatEdu 날짜: 2007-01-28 18:33

회귀분석을 하게 되면 종종 나오는 문제중의 하나가 회귀분석 결과는 유의한데, B 값이 .000 등으로 나오는 경우가 있습니다. 반대로 유의하지 않으면 B 값이 엄청 큰 경우가 있습니다. 예를 들어, 다음과 같은 data가 있을 경우

                    X1            X2         Y
             --------------------------------
              123456789    0.000042    2.1
              235134643    0.000047    3.5
              352394435    0.000041    4.8
              452346523    0.000053    5.7

위 data를 바탕으로 회귀분석을 한 결과가 바로 이며, 바로 아래와 같다.

         변수              B         beta      p
       --------------------------------------
         상수           1.343                  .354
         X1               .000      1.026     .045
         X2    -13147.376      -.046     .642

위와 같은 결과가 나왔을 경우, 보통 2가지를 고민하게 되는데, 상황에 따라서는 3가지를 고민을 할 수 있습니다.

1. X1의 p값이 .05보다 작아서 유의한데 B 값이 .000 인 경우

의외로 빈번하게 나오는 경우에 해당되는데, 이 경우 p 값을 기준으로 보면, X1은 종속변수에 유의한 영향을 준다고 할 수 있습니다. 하지만, B 값을 보면 .000 으로 0 이라고 나오게 되어 의구심을 갖게 되는데, 곧이 곧대로 해석을 한다면 X1 값이 아무리 변해도 Y 는 변화가 없는 형태이므로 결국, X1 이 Y 에 영향을 주지 않는다고 생각할 수 있습니다.
하지만, 전혀 그렇지 않습니다. 우리가 흔히 회귀분석을 할 경우 가장 빠지기 쉬운 함정 중의 하나가 바로 B 값(기울기)입니다. 이 값이 크면 영향을 많이 주고, 이 값이 작으면 영향을 주지 않는다고 생각을 합니다. 하지만, B 값은 X1, Y의 단위에 의해서 영향을 받는 값입니다.
위 data에서 확인한 바와 같이 X의 단위가 Y의 단위보다 상당히 큰 경우에는 기울기인 B 값은 아주 작게 나오게 됩니다.
즉, X의 단위가 커서 B 값이 .000 으로 아주 작게 나온다는 것이죠.

2. X2의 p 값이 0.05보다 커서 유의하지 않은데, B 값이 -13147 과 같이 절대값이 아주 큰 경우

2의 내용은 1의 반대 현상때문에 나오는 것으로, X의 단위에 비해서 Y의 단위가 상대적으로 큰 경우 일어나는 현상입니다.

1,2 의 내용에서 알 수 있는 것은 B 값의 크기는 중요하지 않다는 것입니다.
이것을 입증하기 위해서

                 X1 * 100,000,000
                 X2 / 100,000

를 해주면, 즉, X1 에는 1억을 곱해주고, X2에는 십만으로 나누어 주게 되면 data의 단위는 다음과 같이 바뀌게 됩니다.

                 X11             X12    Y
          --------------------------------
              1.23456789    4.2    2.1
              2.35134643    4.7    3.5
              3.52394435    4.1    4.8
              4.52346523    5.3    5.7
        
이 data를 가지고 회귀분석한 결과가 이며, 다음과 같습니다.

        변수              B         beta        p
       ----------------------------------------
         상수           1.343                  .354
         X11            1.129      1.026     .045
         X12            -.131      -.046     .642

위 결과를 보면, B 값을 제외한 모든 값은 같다는 것을 알 수 있습니다. 즉, B 값은 data의 단위에 따라서 변하는 값이기 때문에 그 값의 크기는 의미가 없습니다. 그래서, 실제 회귀분석을 할 경우에는 독립변수와 종속변수의 단위 차이가 많이 날 경우에는 가능하면 비슷하게 맞추어서 분석을 하는 것이 편리합니다.
다만, 해석을 할 때에는 단위를 고려해서 해석해야겠죠.

3. 상수항(절편)의 p 값이 유의하지 않은 경우

위의 결과들을 보면, 상수항의 p 값은 유의하지 않은 것을 알 수 있습니다. 하지만, 특별한 경우가 아니라면 상수항에 대한 검정은 하지 않는 것이 일반적입니다. 왜냐하면 상수항에 대한 검정을 해서, 상수항이 유의하지 않을 경우에는 다음과 같이

        변수              B         beta          p
      ----------------------------------------
         X11            1.075       .800       .008
         X12              .194      .210       .102

본래의 결과에서 상수항을 빼고 다시 회귀분석을 하면 위와 같은 결과가 나오게 됩니다.

이때, 상수항이 빠진 회귀식(a)과 상수항이 포함된 회귀식(b)을 서로 비교할 경우, 결정계수 등으로 직접적인 비교를 할 수 없습니다. 다만, 독립변수의 값을 고정시켜주었을 때 예측되어지는 종속변수 Y 값에 대한 정확도가 (a), (b) 어느 것이 더 정확할지에 대해 생각해 볼 수 있는데, 상수항이 포함된 (b)가 더 정확하다고 할 수 있습니다. 그래서, 예측의 관점에서 볼 때에는 (a) 보다는 (b)가 좀더 좋은 모형이기 때문에 가능하면, 상수항은 포함해서 분석을 하게 되며, 상수항에 대한 검정은 하지 않는 것이 일반적입니다.

댓글


챠챠 (2010-06-07 22:33:55)

항상 많이 배우고 갑니다 ^^


유은 (2015-06-03 21:10:04)

여기에서 베타값이 1이 넘는 것은 어떻게 해석할 수 있나요? 상관계수의 제곱인데 상관계수의 최대값은 1 아닌가요??


이일현 (2015-06-04 00:45:04)

표준화 회귀계수인 beta 는 이론적으로 -1 ~ 1 사이에 나옵니다.

따라서 1을 넘는 값이 나올 수 없죠.

하지만 분석을 하다보면 1.0 을 넘는 경우가 종종 나옵니다.

모형에 문제가 있는 경우 이런 현상이 나옵니다.

다중공선성이 존재하거나, 자기상관이 있거나, 과적합되는 경우 등 모형적합도가 좋지 않은 경우이죠.

이와 같이 beta 값이 1.0 을 넘는 경우에는 모형을 수정해서 재분석해야 합니다.


Brighten (2016-10-25 17:35:00)

안녕하세요~! 설명 잘 보았습니다! 보다시, 독립변수가 2개이상인 경우에 대해서는 beta 값이 -1에서 1사이에 꼭 있어야 하는 것은 아니지 않나요?~ 이부분에 대해서 제가, 다중 로짓스틱 모형을 구현했는데, beta 값이 -1보다 작고 1보다 큰 값들이 산출되서요..


이일현 (2016-11-01 16:44:21)

회귀분석과 로지스틱은 beta 값을 구하는 방법론이 차이가 있습니다.

로지스틱에서는 아직 안정적인 beta 를 구하는 것이 마땅치 않습니다.

회귀의 beta 는 -1~1 사이에 나옵니다.

Attachments

  • 회귀계수1.jpg - 湲곗〈 寃쎈줈: ./files/attach/images/60/368/262/70e2092d882e66dc54bc0bdfca4f5596.jpg
  • 회귀계수2.jpg - 湲곗〈 寃쎈줈: ./files/attach/images/60/368/262/d6169b8eb7911f838adf3665d8b1db3f.jpg

기존 StatEdu 렉쳐 글을 통계컬럼으로 이전했습니다. 원문: http://www.statedu.com/lecture/262368

댓글