10. 회귀분석


 

조사자는 상관계수를 이용하여 두 변수들간의 관계의 정도는 파악할 수 있지만 변수들간의 정확한 관계를 알기는 어렵습니다. 보통 하나 또는 둘 이상의 변수들이 다른 하나의 변수에 미치는 영향의 정도와 방향을 파악하고, 독립변수의 변화에 따라 종속변수에 어떠한 변화가 있는지를 분석하기 위해 회귀분석을 사용합니다.


 

<회귀분석의 목적>

① 독립변수와 종속변수의 관계를 파악할 수 있습니다. 

② 종속변수에 영향을 미치는 독립변수들을 파악할 수 있습니다.

종속변수의 변화를 예측할 수 있습니다.


 

<회귀방정식>

초등학교 교과서에 나오는 라는 직선의 방정식처럼 회귀분석도 이러한 직선의 방정식을 구해서 그 변수간의 관계를 파악합니다.

에 대한 분포가 [그림 10.1]과 같다면 그 분포에 가장 적합한 선을 그을 수 있는데 그 선이 바로 회귀선입니다. 회귀선은 두 집단의 분포에서 각 값들과 편차가 가장 적게 나타나는 선을 긋습니다.

<가장 적합한 회귀선을 추정하는 방법>

회귀분석에서 가장 적합하게 추정하는 데 사용하는 방법은 최소자승법입니다. 최소자승법이란 잔차들의 제곱의 합을 최소화시키도록 하는 회귀식을 구하는 방법입니다.

 

회귀분석은 독립변수에 의하여 생기는 종속변수 변화의 변화에 관심을 가집니다. 따라서 기울기와 절편의 값을 구하는 것입니다. 기울기와 절편의 값을 구하기만 하면 변수를 알면 변수를 알 수 있고, 변수 를 알면 변수 를 알 수 있습니다. 즉 한 변수를 가지고 다른 한 변수의 값을 예측할 수 있는 것입니다.

 

<회귀분석의 자료>

독립변수는 간격척도, 비율척도로 측정됩니다. 그러나 가끔 명목척도로 측정하는 경우가 있는데 이런 경우의 독립변수를 더미변수라고 합니다.

종속변수는 간격척도, 비율척도로 측정됩니다.

 

<가정>

회귀분석에서는 다음의 가정이 만족되어야 합니다.

① 선형성

독립변수와 종속변수간의 관계는 선형적이어야 합니다. 즉, 독립변수가 변화함에 따라 종속변수가 변화할 때에 그 변화가 일정해야 함을 의미하는 것입니다.

② 오차의 정규성

오차란 종속변수의 관측값과 예측값 간의 차이를 말합니다.

오차의 기대값은 0이며, 정규분포를 이룬다고 가정할 수 있을 때에만 회귀분석을 할 수 있습니다.

③ 오차의 독립성

예측의 오차값들은 서로 독립적이어야 합니다. 즉, 의 변화에 따라 오차도 어떤 패턴이 나타나서는 안됩니다.

④ 오차의 등분산성

이 오차들의 분산이 모두 일정해야 회귀분석을 할 수 있습니다.

 

10.1 단순회귀분석(Simple Regression Analysis)

 

단순회귀분석은 다음과 같이 하나의 독립변수와 종속변수와의 관계를 선형관계식으로 표시하고, 독립변수와 종속변수에 관한 관찰자료를 이용하여 회귀식의 기울기와 절편을 추정하는 통계기법입니다.

 

의지가 강한 사람일수록 자아만족도가 높은지 알고자 한다.

 

1) 가설설정

 

<연구문제> 의지는 자아만족도에 영향을 미친다.

(영가설) : 의지는 자아만족도에 영향을 미치지 않는다.

(대립가설) : 의지는 자아만족도에 영향을 미친다.

 

2) 유의수준설정

 

3) 실행방법

 

단순회귀분석을 하기 위해 [예제 12-1]를 불러 다음과 같은 절차를 따라합니다.

 

분석(A)→회귀분석(R)→선형(L)

 

①, ② 변수목록 칸에 있는 변수 중 종속변수를 [종속변수(D)]에 독립변수를 [독립변수(I)]에 입력합니다.

③ 방법(M)

방법에는 전진, 후진, 단계선택, 제거, 입력 등의 방식이 있는데 단순회귀분석에서는 입력방식만 사용되므로 나머지 내용에 대해서는 다중회귀분석에서 다루도록 하겠습니다.

입력 : 모든 독립변수들이 동시에 투입됩니다.

④ 통계량(S)

 

통계량 버튼을 누르면 [그림 10.3]이 나타나는데 그 대화상자에서 필요한 내용을 선택합니다.


 

 

회귀계수

추정값(E)

회귀계수 추정치(회귀계수, 베타, 표준오차, t-value, 유의수준)를 표시해 줍니다.

신뢰구간(N)

회귀계수에 대한 신뢰구간을 표시해 줍니다.

공분산행렬(V)

비표준화 회귀계수에 대한 분산-공분산 행렬을 표시해 줍니다. 대각선에는 분산이 표시되고 대각선의 위와 아래에는 공분산이 표시됩니다.

모형적합(M)

, 표준오차 등을 표시해 주고, 분산분석표에서는 자유도, 제곱합, 제곱평균, 값 등이 표시됩니다.

R제곱 변화량(S)

변수를 추가하거나 삭제하는데 따르는 변화정도를 의미하는데, 이는 다중회귀분석에서 더 의미가 있습니다.

기술통계(D)

각 변수의 평균과, 표준편차, 그리고 각 변수들간의 상관관계가 표시됩니다.

공선성진단(L)

개별 변수에 대한 공차한계와 그밖에 공선성 문제 진단을 위한 다양한 통계량을 표시해 줍니다.

⑤ 도표(L)

 

ZPRED : 표준 예측치

ZRESID : 표준잔차


이 도표에 대해서는 중다회귀분석에서 다루도록 하겠습니다.

 

⑥ 저장(A)

 

위와 같은 대화상자에서 원하는 항목들을 선택한 후 [계속]을 누릅니다.

 

⑦ 옵션(O)

 

선택법 기준에서 [F-확률 사용(O)]은 다중회쉬분석을 하는 경우 단계선택법을 사용할 때 어떤 변수가 회귀식에 들어갈 것인가를 결정하는데 사용되는 값이므로 다중회귀분석에서 자세히 다루겠습니다.

[방정식에 상수항 포함(I)]에서 상수항 포함 여부를 설정하시고 나서 [계속]을 누릅니다.

마지막으로 [확인]을 누르면 다음과 같은 결과 창이 나타납니다.

 

-->진입/제거된 변수(b)

 

모형

진입된 변수

제거된 변수

방법

1

의지(a)

.

입력

a 요청된 모든 변수가 입력되었습니다.

b 종속변수: 만족

 

진입/제거된 변수 표에서는 종속변수가 만족이라는 것과, 독립변수가 의지라는 것 그리고 방법은 입력방식을 사용했다는 것이 나타나 있습니다.

 

->모형 요약(b)

 

모형

R

R 제곱

수정된 R 제곱

추정값의 표준오차

1

.447(a)

.200

.196

.6112

a 예측값: (상수), 의지

b 종속변수: 만족

[R] : 독립변수와 종속변수 두 변수간 적률상관관계를 나타내는 것입니다.

[R 제곱] : 결정계수라고도 불리는데, 종속변수의 분산 중 어느 정도 비율(%)이 독립변수에 의해 설명되는가를 나타내는 값으로 0.00~1.00 사이의 값을 갖습니다. 1.00에 가까운 값이 나올수록 완벽한 관계에 가까워지는 것을 의미합니다. 여기서 R 제곱값은 이전에 배운 상관관계의 상관계수의 제곱과 같은 값입니다. 여기서는 R 제곱값이 .200으로 종속변수의 분산이 독립변수의 분산에 의해 20%가 설명됨을 알 수 있습니다.

[수정된 R 제곱] : 자유도를 고려한 값으로 모집단의 결정계수를 추정할 때 사용합니다.

 

-->분산분석(b)

 

모형

제곱합

자유도

평균제곱

F

유의확률

1

선형회귀분석

15.993

1

15.993

42.812

.000(a)

잔차

63.877

171

.374

 

 

합계

79.870

172

 

 

 

a 예측값: (상수), 의지

b 종속변수: 만족

여기서 F값은 모집단의 회귀선 기울기가 0이라는 영가설에 대한 검증입니다. 따라서 여기서의 F값은 42.812이고, 유의수준은 0.000이므로 위의 영가설을 기각하므로 모집단의 회귀선의 기울기는 0이 아니라는 것을 알 수 있으므로 두 변수에 대한 회귀선의 모델이 적합하다는 것을 말해줍니다. 즉, 모델에 대한 적합성을 검증할 때 분산분석표를 이용합니다.


-->계수(a)

 

 

비표준화 계수

표준화 계수

t

유의확률

모형

B

표준오차

베타

1

(상수)

1.650

.258

 

6.383

.000

의지

.437

.067

.447

6.543

.000

a 종속변수: 만족

이 표를 통해 비표준화계수(B)에 의해 다음과 같은 회귀식을 도출할 수 있습니다.

의지에 대한 회귀계수는 양(+)으로 나타났으며, 유의확률이 0.000이므로 매우 유의미한 값으로 나타났습니다. 따라서 의지는 자아 만족도에 영향을 미친다고 결론지을 수 있습니다.

[(상수)]는 절편에 대한 값입니다.

[의지]는 회귀식의 기울기에 대한 값입니다.


10.2 중다회귀분석

 

중다회귀분석은 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법으로 단순회귀분석을 확장한 것입니다.

중다회귀분석모형에 있어서도 오류항의 분포에 대한 가정이나 모수에 대한 추정방법, 결과의 해석 등은 단순회귀분석모형과 동일합니다.

 

<중다회귀분석의 고려할 점>

① 중다회귀분석은 회귀계수들을 추정할 때 독립변수들을 모형에 포함시키는 방법과 순서를 결정해야 합니다. 그 방법은 단계적 변수입력방법과 동시적 변수입력방법이 있습니다.

․단계적 변수입력방법 : 여러 개의 가능한 독립변수 중 가장 설명력이 높은 독립변수로부터 순서대로 모형에 포함하는 방법입니다.

․동시적 변수입력방법 : 모든 독립변수를 모형에 포함시키고 동시에 모든 회귀계수들을 추정하는 방법입니다.

② 다중공선성이 발생하는 것을 방지해야 합니다.

다중회귀분석에서는 회귀식에 포함된 독립변수들끼지 높은 상관관계를 가질 경우가 많습니다. 이처럼 독립변수들간의 상관관계가 높을 때, 이것을 변수들간의 다중공선성이 있다고 말합니다. 독립변수들 사이에 다중공선성이 존재한다면 추정된 계수가 통계적으로 유희하지 않게 나타날 가능성이 있기 때문에 다중공선성의 발생을 방지해야 합니다. 이를 방지하기 위하여 미리 변수들간의 상관계수를 파악하여 상관관계가 높은 두 변수들 중 하나를 회귀분석모형에서 제거하거나 단계적 회귀방법을 이용하여 상관관계가 높은 변수들 중 가장 설명력이 있는 독립변수만을 모형에 포함시켜야 합니다.


 

<더미변수의 입력>

회귀분석의 입력자료는 대개의 경우 등간척도, 비율척도로 구성됩니다. 그러나 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있는데 이러한 변수를 더미변수라고 합니다.

더미변수의 수 = 범주의 수 - 1

만약 범주의 수가 두 개인 경우 더미변수으 수는 한 개이며, 한 범주를 1로 다른 범주를 0으로 입력합니다. 범주가 세 개인 경우에는 더미변수는 2개이며, 입력방식은 다음과 같습니다.

 

범 주

더미변수1

더미변수2

A

0

0

B

1

0

C

0

1

자신의 능력, 의지, 자아통제감이 자아만족도에 영향을 미치는지 알고자 조사하려고 한다.

1) 가설설정

 

<연구문제> 자신의 능력, 의지, 자아통제감은 자아만족도에 영향을 미친다.

(영가설) : 자신의 능력, 의지, 자아통제감은 자아만족도에 영향을 미치지 않는다.

(대립가설) : 자신의 능력, 의지, 자아통제감은 자아만족도에 영향을 미친다.

 

2) 유의수준설정

 

3) 실행방법

 

단순회귀분석을 하기 위해 [예제 12-2]를 불러 다음과 같은 절차를 따라합니다.

 

분석(A)→회귀분석(R)→선형(L)

 

이 절차를 따르면 [그림 10.7]과 같은 대화상자가 나타납니다.


 

 

①, ② 변수목록 칸에 있는 변수들 중 종속변수를 종속변수(D)칸으로 독립변수를 독립변수(I)칸으로 옮깁니다.


 

③ 방법(M)

․입력 : 모든 독립변수들이 동시에 투입되도록 하는 설정입니다.

․단계선택 : 여러 개의 독립변수들 중에서 설명력이 어느 정도 높은 변수들로만 회귀모델을 구성하도록 하는 것입니다. 첫 단계에서는 종속변수와 상관관계가 가장 높은 변수가 회귀선에 들어가고, 두 번째 단계에서는 전 단계에서 들어가지 않은 변수들 중 종속변수와 가장 높은 편상관관계를 갖는 변수가 들어갑니다. 각 단계에서는 기존에 진입한 각 변수의 유의성 검증이 이루어지며, 비유의적인 변수는 제거됩니다.

․전진 : 상관관계가 높은 독립변수의 순서로 회귀식에 진입합니다. 단계선택과는 달리 비유의적인 변수도 포함이 됩니다.

․후진 : 모든 독립변수들이 한꺼번에 들어가서 각 단계에서 종속변수에 대한 설명력이 낮은 순서로 제거됩니다.


 

④ 통계량(S)

통계량에는 여러 가지 선택항목들이 있는데, 평소에 많이 다뤄온 내용이라 다들 많이 알고 계실 것입니다.

 

모형적합(M)

상관관계 R, 결정계수 R제곱, 표준추정오차, 자유도, 자승합, 변량의 추정치, F값 등을 제시합니다.

R제곱 변화량(S)

변수를 추가하거나 삭제하는데 따르는 R제곱의 변화정도를 의미합니다.

부분상관 및 편상관계수(P)

부분상관과 편상관의 상관관계를 제시해 줍니다.

공선성 진단(L)

개별 변수에 대한 공차한계와 공선성 문제 진단을 위한 다양한 통계량을 표시합니다. 이는 다중회귀분석을 실행할 때 지정하는 기능으로 한 독립변수가 다른 독립변수와의 선형관계를 갖고 있을 때 발생하는 다중공선성의 문제를 검증하기 위한 것입니다. 모수추정치에 대한 허용도가 0.1 이하이면 다중공선성에 문제가 있다고 보고, 문제가 발생하는 변수를 제거하거나 회귀분석 대화상자의 [방법(M)]에서 [단계선택]을 설정해 줍니다.

Durbin-Watson(U)

시계열자료를 회귀분석한 경우 오차항의 값들이 서로 상관관계가 있는지를 조사하는데 사용되는 값을 나타냅니다. 종속변수를 설명하는데 중요한 변수가 포함되지 dskg은 경우에 오차항의 값들간에 상관관계가 높게 나타날 수 있습니다. 분석결과 도출되는 Durbin-Watson 값이 검증영역표의 어디에 해당하는지에 따라 상관관계 유무를 결론지을 수 있습니다.

케이스별 진단(C)

분석의 대상이 된 케이스들의 회귀식에 의한 예측값, 예측값과 실제값의 차이 값들을 나타냅니다.

⑤ 도표

 

예측치와 잔차 선택

DEPENDENT

종속변수를 의미합니다.

ZPRED

표준화되지 않은 예측치를 의미합니다.

ZRESID

표준화된 예측치를 의미합니다.

DRESID

삭제된 잔차를 의미합니다.

ADJPRED

수정된 예측치를 의미합니다.

SRESID

표준화된 삭제잔차를 의미합니다.

표준화

잔차 도표

히스토그램(H)

표준화된 잔치의 히스토그램으로 정규분포곡선이 같이 그려집니다.

정규확률도표(R)

표준화된 잔차의 정규확률 그래프가 그려집니다.

편회귀잔차도표 모두 출력(P)

종속변수와 독립변수에 따른 잔차도표가 점그래프로 그려집니다.

⑥ 옵션(O)

옵션에서 F-확률 사용(O)이나 F-값 사용(V) 중에서 설정해 줍니다. F-확률 사용은 단계선택방식에서만 의미를 가지므로 여기서는 기본설정 그대로 나둔 후 [계속]을 누릅니다.


 

모든 설정을 마친 후 [확인]을 누르면 다음과 같은 결과 창이 나타납니다.


-->기술통계량

 

 

평균

표준편차

N

만족

3.3134

.6814

173

능력

3.3627

.6617

173

의지

3.8035

.6972

173

통제

3.5788

.5965

173

기술통계량 표에서는 변수들의 평균과 표준편차가 제시되어 있습니다.



-->상관계수

 

 

만족

능력

의지

통제

Pearson 상관

만족

1.000

.280

.447

.410

능력

.280

1.000

.458

.378

의지

.447

.458

1.000

.700

통제

.410

.378

.700

1.000

유의확률 (한쪽)

만족

.

.000

.000

.000

능력

.000

.

.000

.000

의지

.000

.000

.

.000

통제

.000

.000

.000

.

N

만족

173

173

173

173

능력

173

173

173

173

의지

173

173

173

173

통제

173

173

173

173

상관계수 표에서는 각 변수들간의 상관관계가 나타나 있습니다. 각각의 변수는 종속변수와 모두 유의미한 결과가 나타나, 각 변수들은 종속변수와 유의한 상관관계가 있다고 결론지을 수 있습니다.


-->진입/제거된 변수(b)

 

모형

진입된 변수

제거된 변수

방법

1

통제, 능력, 의지(a)

.

입력

a 요청된 모든 변수가 입력되었습니다.

b 종속변수: 만족

진입/제거된 변수 표에서는 투입한 변수가 3개이고, 제거된 변수는 없고, 입력방식을 사용했으며, 종속변수는 만족이라는 것을 알 수 있습니다.


-->모형 요약(b)

 

모형

R

R 제곱

수정된 R 제곱

추정값의 표준오차

1

.473(a)

.224

.210

.6057

a 예측값: (상수), 통제, 능력, 의지

b 종속변수: 만족

모형요약 표에서는 통제, 능력, 의지의 세 독립변수들이 투입된 결과 R제곱은 .224로서 22.4% 정도 종속변수를 설명하고 있다고 분석하면 됩니다. 자유도를 반영한 수정된 R제곱은 .210으로 나타났습니다.


-->분산분석(b)

 

모형

제곱합

자유도

평균제곱

F

유의확률

1

선형회귀분석

17.873

3

5.958

16.240

.000(a)

잔차

61.997

169

.367

 

 

합계

79.870

172

 

 

 

a 예측값: (상수), 통제, 능력, 의지

b 종속변수: 만족

분산분석 표에서 F값은 16.240이고, 유의확률은 .000으로 위의 모델은 모두 유의미함을 알 수 있습니다. 즉, 회귀식이 종속변수를 설명하는데 유용하다고 말할 수 있습니다.


-->계수(a)

 

 

비표준화 계수

표준화 계수

t

유의확률

공선성 통계량

모형

B

표준오차

베타

공차한계

VIF

1

(상수)

1.238

.317

 

3.909

.000

 

 

능력

.083

.079

.082

1.065

.288

.784

1.276

의지

.277

.097

.284

2.860

.005

.466

2.144

통제

.206

.109

.180

1.893

.060

.506

1.978

a 종속변수: 만족

계수 표를 통해 다음과 같은 회귀식을 표현할 수 있습니다.


 

<각 독립변수의 유의성 검증>

① 능력은 다른 두 변수가 회귀식에 포함되어 있는 경우 유의하지 못합니다.

② 의지는 다른 두 변수가 회귀식에 포함되어 있는 경우 유의합니다.

③ 통제는 다른 두 변수가 회귀식에 포함되어 있는 경우 유의하지 못합니다.


 

<표준화 계수를 통한 독립변수 영향력의 상대적 크기>

표준화된 회귀계수는 입력된 자료를 표준화시켜 분석한 것이므로, 독립변수 영향력의 크기를 비교할 때에는 단순한 회귀계수가 아닌 표준화된 회귀계수를 이용합니다. 표준화된 회귀계수의 절대값 중에 가장 큰 값이 나타나는 독립변수가 종속변수에 가장 영향을 크게 미치는 것입니다.


 

<공선성 통계량>

공선성 : 두 개의 독립변수들 간의 관계를 말하는 것입니다.

다중공선성 : 세 개 이상의 독립변수들 간의 관계를 말합니다.  한 독립변수가 종속변수에 대한 설명력이 높다고 하더라도 다중공선성이 높으면 설명력이 낮은 것처럼 나타납니다.

공차한계 : 공선성을 검증하기 위해 가장 많이 사용되는 지표입니다. 공차한계는 한 독립변수가 다른 독립변수들에 의해서 설명되지 않은 부분을 의미합니다.

분산팽창요인(VIF) : 공차한계의 역수로 표시되며, VIF값이 클수록 독립변수들간의 공선성 정도가 높음을 의미합니다.


-->공선성 진단(a)

 

 

고유값

상태지수

분산비율

모형

차원

(상수)

능력

의지

통제

1

1

3.952

1.000

.00

.00

.00

.00

2

2.298E-02

13.113

.00

.87

.08

.11

3

1.675E-02

15.361

.89

.09

.20

.02

4

8.461E-03

21.612

.11

.04

.72

.87

a 종속변수: 만족

공선성 진단 표에서는 공선성을 진단하기 위한 다른 값들을 나타냅니다.

고유값 : 독립변수들의 곱셈값의 행렬을 요인분석함으로써 얻어집니다.

상태지수 : 가장 큰 고유값을 그 차원의 고유값으로 나눈 값의 제곱근 값입니다. 상태지수 값이 15보다 작으면 공선성이 문제될 수 있습니다.

분산비율 : 추정치의 분산 각각의 차원에 의해 설명되는 비율을 나타냅니다.

상태지수가 가장 높은 차원은 4차원입니다. 그에 따른 분산비율을 살펴보면 통제가 .87, 의지가 .72이므로 통제의 분산 중 78%를 , 의지의 분산 중 72%를 설명한다고 알 수 있습니다. 따라서 의지와 통제간에는 공선성이 존재할 가능성이 있다고 할 수 있습니다.

공선성 검증을 위하여 이와 같이 상태지수와 분산비율을 확인해 볼 수 있으나, 보통은 공차한계와 분산팽창요인을 통해 분석하는 경우가 많습니다.


 

-->

위의 도표는 [그림 10.7]의 도표에서 표준화된 잔차를 설정해 준 결과입니다. 위의 그래프와 같이 잔차들은 정규성을 만족하고 있습니다.