Q&A

조절변수를 연속형에서 범주형으로 바꾸는 건에 대하여

분류: Meta/effect size 글쓴이: 민니 날짜: 2025-10-29 18:19
교수님, 안녕하십니까. 
게시판을 보며 통계에 대해 많이 배우고 있는 석사생입니다.
논문 작성 중 어려운 부분이 있어 질문드립니다.

변수는 다음과 같습니다.
독립변수: 안전문화인식
종속변수: 안전관리활동
조절변수: 근무경력

독립변수와 종속변수는 각각 5점 리커트 척도 설문지로 조사하였으며 조절변수인 경력은 개월수로 조사하였습니다.

 SPSS 31, process macro ver5.0 modle 1을 사용해 분석하였을 때 조절변수를  연속형 변수 그대로 투입한 경우 상호작용항의  p값이 .113으로 유의하지 않은 결과가 도출되었습니다.
Model Summary 
          R       R-sq        MSE          F        df1        df2          p 
       .423       .179       .135     10.439      3.000    144.000       .000 
 
Model 
                      coeff         se          t            p          LLCI       ULCI 
constant      3.001       .303      9.893       .000      2.401      3.601 
safety            .407       .083      4.905       .000       .243       .572 
ORcareer      .005       .003      1.831        .069       .000       .010 
Int_1            -.001       .001     -1.596       .113      -.003       .000
-----------------------

그래서 경력을 저, 중, 고 3그룹으로 투입해보았더니 다음과 같은 결과가 결과가 도출되었습니다.
(저, 중, 고 경력 기준은 선행논문을 참고하였습니다.)
Model Summary 
          R       R-sq        MSE          F        df1        df2          p 
       .443       .196       .132     11.725      3.000    144.000       .000 
 
Model 
                     coeff         se          t          p       LLCI       ULCI 
constant      1.766       .618      2.858       .005       .544      2.987 
safety            .722       .163      4.415       .000       .399      1.045 
ORcareer       .748       .262      2.850       .005       .229      1.266 
Int_1             -.190       .071     -2.690      .008      -.330      -.050 
 
Product terms key: 
 Int_1    :        safety   x        ORcareer 
 
 
Test(s) of highest order unconditional interaction(s): 
       R2-chng          F        df1        df2          p 
X*W       .040      7.235      1.000    144.000       .008 
  
 
Conditional effects of the focal predictor at values of the moderator(s): 
 
   ORcareer     Effect         se          t          p       LLCI       ULCI 
      1.000       .531       .101      5.275       .000       .332       .730 
      2.000       .341       .060      5.686       .000       .222       .459 
      3.000       .150       .084      1.789       .076      -.016       .316 
 
이 때 전체모델의 유의 확률은 .008로 나와 조절효과가 있다고 판단하였으나
경력 수준에 따라 1(저경력), 2(중경력)에서는 p<.05 , 3(고경력)에서는 p=.076으로 나왔습니다.
이러한 경우 저경력과 중경력에서는 경력이 음의 조절효과가 있고
고경력에서는 조절효과가 없다고 해석하는 것이 적절할지요?
또한 Johnson-Neyman에서 career가   2.945  인 구간 부터
p값이 .05 이상이 나오는데요, 제가 경력을 저=1, 중=2, 고=3으로 범주화해 둔 상태에서
저 2.945라는 숫자는 어떻게  해석하는 것이 맞는지 궁금합니다.
마지막으로 연속형 변수인 경력을 제가 저, 중, 고 경력으로 범주화하여 조절효과를 분석하는 것이
통계적으로 문제가 없는지 여쭤봅니다.
감사합니다!
Moderator value(s) defining Johnson-Neyman significance region(s): 
      Value    % below    % above 
      2.945     60.135     39.865 
 
Conditional effect of focal predictor at values of the moderator: 
   ORcareer     Effect         se          t          p       LLCI       ULCI 
      1.000       .531       .101      5.275       .000       .332       .730 
      1.100       .512       .095      5.388       .000       .324       .700 
      1.200       .493       .090      5.503       .000       .316       .670 
      1.300       .474       .084      5.617       .000       .307       .641 
      1.400       .455       .079      5.724       .000       .298       .612 
      1.500       .436       .075      5.819       .000       .288       .584 
      1.600       .417       .071      5.891       .000       .277       .557 
      1.700       .398       .067      5.929       .000       .265       .531 
      1.800       .379       .064      5.917       .000       .252       .505 
      1.900       .360       .062      5.840       .000       .238       .482 
      2.000       .341       .060      5.686       .000       .222       .459 
      2.100       .322       .059      5.447       .000       .205       .438 
      2.200       .303       .059      5.127       .000       .186       .419 
      2.300       .284       .060      4.739       .000       .165       .402 
      2.400       .265       .061      4.304       .000       .143       .386 
      2.500       .246       .064      3.846       .000       .119       .372 
      2.600       .227       .067      3.387       .001       .094       .359 
      2.700       .207       .071      2.943       .004       .068       .347 
      2.800       .188       .075      2.525       .013       .041       .336 
      2.900       .169       .079      2.140       .034       .013       .326 
      2.945       .161       .081      1.977       .050       .000       .322 
      3.000       .150       .084      1.789       .076      -.016       .316

댓글


이일현 (2025-11-01 11:13:18)

일단 개월 수를 범주화(저,중,고)해서 분석하는 경우 조절변수는 범주형 변수입니다.

process macro 옵션에서 "Multicategorical" 에서 조절변수를 체크해서 분석해야 합니다. 

지금 결과는 범주형 조절변수가 아닌 연속형 조절변수로 분석한 것이기 때문에 잘못된 방법입니다. 


민니 (2025-11-02 13:59:33)

감사합니다.
말씀해주신대로 multicategorial- dummy 체크 한 결과입니다.   

Model: 1 
      Y: activity 
      X: safety 
      W: ORcareer 
Variable descriptive statistics 
             activity     safety   ORcareer 
Mean      4.516      3.602      2.122 
SD            .401       .526       .816 
Min        3.057      2.000      1.000 
Max       5.000      5.000      3.000 
 
Variable intercorrelations (Pearson r) 
              activity     safety   ORcareer 
activity      1.000       .383      -.003 
safety          .383      1.000      -.253 
ORcareer   -.003      -.253      1.000 
 
Coding of categorical W variable for analysis: 
 ORcareer       W1       W2 
    1.000       .000      .000 
    2.000     1.000      .000 
    3.000       .000    1.000 
 
************************************************************************** 
 
OUTCOME VARIABLE: 
 activity 
 
Model Summary 
          R       R-sq        MSE          F        df1        df2          p 
       .447       .199       .133      7.075      5.000    142.000       .000 
 
Model 
                       coeff         se          t             p         LLCI       ULCI 
constant      2.547       .445      5.728       .000      1.668      3.425 
safety            .527       .115      4.566       .000       .299       .755 
W1                 .774       .590      1.311       .192      -.393      1.941 
W2               1.432       .547      2.618       .010       .351      2.513 
Int_1           -.211       .158     -1.336       .184      -.524       .101 
Int_2           -.364       .147     -2.486       .014      -.654      -.075 
 
Product terms key: 
 Int_1    :        safety   x        W1 
 Int_2    :        safety   x        W2 
Covariance matrix of regression parameter estimates: 
               constant     safety         W1         W2      Int_1      Int_2 
constant       .198      -.051      -.198      -.198       .051       .051 
safety          -.051       .013       .051       .051      -.013      -.013 
W1               -.198       .051       .349       .198      -.093      -.051 
W2               -.198       .051       .198       .299      -.051      -.079 
Int_1          .051      -.013      -.093      -.051       .025       .013 
Int_2          .051      -.013      -.051      -.079       .013       .021 
 
Test(s) of highest order unconditional interaction(s): 
               R2-chng          F        df1        df2                p 
X*W              .035      3.097      2.000    142.000       .048 
---------- 
    Focal predict: safety   (X) 
          Mod var: ORcareer (W) 
 
Conditional effects of the focal predictor at values of the moderator(s): 
 
    ORcareer     Effect         se          t          p       LLCI       ULCI 
      1.000       .527       .115      4.566       .000       .299       .755 
      2.000       .316       .108      2.919       .004       .102       .529 
      3.000       .163       .090      1.798       .074      -.016       .341 
 
Data for visualizing the conditional effect of the focal predictor: 
Paste text below into a SPSS syntax window and execute to produce plot. 
 
DATA LIST FREE/ 
   safety     ORcareer   activity   . 
BEGIN DATA. 
      3.133      1.000      4.198 
      3.550      1.000      4.418 
      4.067      1.000      4.690 
      3.133      2.000      4.310 
      3.550      2.000      4.441 
      4.067      2.000      4.604 
      3.133      3.000      4.487 
      3.550      3.000      4.555 
      4.067      3.000      4.639 
END DATA. 
GRAPH/SCATTERPLOT= 
 safety   WITH     activity BY       ORcareer . 
 
*********** BOOTSTRAP RESULTS FOR REGRESSION MODEL PARAMETERS ************ 
 
OUTCOME VARIABLE: 
 activity 
 
              Coeff   BootMean     BootSE   BootLLCI   BootULCI 
constant      2.547      2.557       .470      1.546      3.393 
safety         .527       .525       .117       .325       .784 
W1             .774       .741       .630      -.430      2.085 
W2            1.432      1.430       .613       .266      2.673 
Int_1         -.211      -.204       .164      -.550       .100 
Int_2         -.364      -.366       .157      -.686      -.066

1. X*W의 p값이 0.048이므로 조절효과가 있다. 
2.회귀계수표 상 Int_1 의 p(.184), Int_2의 p(.014)이므로  중경력에서 조절효과가 유의하지 않은 것
3.  조건부효과에서는 
ORcareer     Effect         se          t          p       LLCI       ULCI 
      1.000       .527       .115      4.566       .000       .299       .755 
      2.000       .316       .108      2.919       .004       .102       .529 
      3.000       .163       .090      1.798       .074      -.016       .341 
- 저경력군, 중경력군에서 경력의 조절효과 유의, 고경력군에서는 유의하지 않은 것으로
상반된 결과가 나타나는데 이를 어떻게 해석하는 것이 적절한지 여쭙습니다. 

이일현 (2025-11-02 14:33:54)

1. 예.

2. 저경력과 고경력 간에 차이가 있다. 

경력의 조절효과가 있다.

3. 저경력, 중경력에서는 유의하지만, 고경력에서는 유의하지 않다.

그리고 저경력이 고경력보다 유의하게 높다.


민니 (2025-11-03 14:34:34)

감사합니다 교수님.

Multicategorial 옵션을 체크하니 상호작용항이 2개 생겨 해석에 어려움을 겪던 중 다음과 같은 글을 읽게 되었습니다.

(다른 홈페이지에서 본 글입니다) https://dataminer9.tistory.com/m/664

범주가 3개 이상이라도 연령, 학력, 직급 같은 변수는 순서가 있는 순위형 변수이기 때문에 이 변수는 그냥 연속형 변수처럼 취급하여 처리하는 것이 더 좋습니다. 그러나 종교의 경우 순서나 순위, 우월 이런 개념이 없거든요. 즉 명목형 변수라는 것이죠. 이 경우는 작업하기가 좀 복잡하다는 것이죠.

----------

혹시 저(1-3년), 중(3-6년), 고(6년이상) 경력을 범주형 변수가 아닌 순위형 변수로 취급하여

Multicategorial 옵션을 체크하지 않고 분석하는 것에대한 교수님의 고견을 여쭙습니다.


이일현 (2025-11-03 15:15:49)

아뇨. 

편의성이 있는 것이지 서열척도를 연속형 취급해서 분석하는 것은 좋은 방법이 아닙니다. 

예를 들어 각 그룹의 평균이

저 3.5

중 4.5

고 5.5 

와 같이 선형 trend 가 있을 수 있을텐 어느 정도 가능합니다. 

하지만

저 3.5

중 4.5

고 3.7

과 같이 선형 trend 가 없다면 문제가 발생하죠.

회귀분석에서 연속형 변수는 선형 trend 가 있다는 조건으로 직선(선형식)을 그리고 분석하는 것입니다. 


Legacy document_srl: 308581 / Legacy URL: http://www.statedu.com/QnA/308581

댓글

댓글은 로그인한 회원만 작성할 수 있습니다.