6. 차이검증

6.1 단일표본 T검증

 

가장 기본적인 가설검증은 하나의 표본집단의 특성에 대한 가설을 검정하는 것으로 평균에 대한 가설과 비율에 대한 가설로 나누어집니다.

 

 

일반적으로 전체 여성들의 평균 몸무게는 50kg으로 여겨져 A지역 사람들의 평균도 50kg이라고 말할 수 있는지 조사하기로 하였다.

 

48   60   56   45   59   39   44   52   53   47

50   51   49   55   53   52   47   60   46   55

1) 가설설정


 

<연구가설> : A지역 여성들의 몸무게는 50kg과 차이가 있다.

(영가설) : = 50

(대립가설) : ≠ 50


 

♣ 양측검증과 단측검증 ♣


 

모집단 평균에 대한 가설검정의 경우 조사자가 영가설에서 설정한 모수값(여기서는 50)의 방향에 따라 단측검증과 양측검증으로 나뉩니다. 가 어떤 값보다 클 것으로 예상되면 오른쪽 단측검증을, 어떤 값보다 작을 것으로 예상되면 왼쪽 단측검증을, 그리고 에 관계없이 차이를 비교하는 경우에는 양측검증을 하면 됩니다. 여기서는 양쪽 방향에 대한 검증이므로 양측검증을 사용합니다.


 

2) 유의수준 설정


 

보통 α=0.05로 설정합니다.


 

3) 검정통계량


 

단일표본을 이용한 평균에 대한 가설검증에서 검정통계량의 결정은 표본의 크기에 따라 달라집니다. 모집단에 대한 정보를 알고 있다거나 표본의 크기가 큰 경우에는 Z-test을 하며, 그렇지 않은 경우에는 T-test을 해야 합니다. 표본의 크기에 대한 기준은 보통 30으로 표본의 크기가 30보다 큰 경우에는 중심극한정리에 의해 정규분포를 따른다고 보고 Z-test을 실시합니다. 중심극한정리란 표본의 크기가 충분히 크면(30이상) 표본평균의 표본분포는 정규분포에 가깝게 된다는 말입니다. 여기서는 표본의 크기가 30보다 작으므로 단일표본 T-test을 실시하고 Z-test은 뒷장에서 다루도록 하겠습니다.


 

T검증의 통계량은 다음과 같습니다.


 

 

= 표본평균   = 모집단의 평균     

= 표본의 표준편차     = 표본의 수


 

단일 표본 T검증의 자유도는   입니다.


 

4) 실행방법


 

단일표본 T검증을 시작하기 위해 [예제 08-1] 파일을 불러온 후 다음과 같은 절차를 따릅니다.

 

분석(A)→평균비교(M)→일표본 T검정(S)

 

이 절차를 따르면 [그림 6.1]과 같은 대화상자가 나타납니다.

 

왼쪽의 변수목록 칸에 있는 변수를 검정변수(T)로 옮겨놓습니다. 검정값(V)에 검증하고자 하는 평균(여기서는 50)을 넣고 옵션(O)을 클릭하면 [그림 6.2]가 나타납니다.


 

옵션에서는 신뢰구간을 설정할 수 있는데 신뢰구간은 100%에서 유의수준을 뺀 값입니다. 분석자의 판단에 따라 90%, 95%, 99%로 설정됩니다. 결측값에서는 분석별로 제거할지 목록별로할지 설정해 줄 수 있습니다.

 

이와 같은 설정을 한 후 [계속]을 누른 후 [확인]을 누르면 다음과 같은 결과창이 나타납니다.

 

일표본 통계량 표에서는 사례수(N)과 평균, 표준편차, 평균의 표준오차 등이 나타나 있고, 일표본 검정 표에서는 t값과 자유도, 유의확률, 평균차, 신뢰구간이 제시되어 있습니다.

t값은 0.841이고 유의확률이 0.411이므로 을 기각하지 못하므로 유의미한 결과가 나타나지 않았습니다. 따라서 A지역 여성들의 평균 몸무게는 50kg과 차이가 없다고 결론 지을 수 있습니다.

6.2 두 표본집단의 평균 차이검증(독립표본 T검증)

 

두 표본집단의 평균 차이에 대한 검증은 서로 독립적인 두 집단의 평균값간의 차이를 검정하는 것입니다. 두 표본집단이 정규분포를 이루며 분산이 같다는 가정하에 T-test를 사용합니다. 여기서도 각각의 표본집단의 크기가 크면 Z-test를 사용할 수 있습니다. 이에 대한 내용은 뒤에 가서 다루겠습니다.

 

 

성별에 따른 사회적 지지에 대한 차이 검증

 

1) 가설설정

 

<연구가설> : 성별에 따라 사회적인 지지에는 차이가 있다.

(영가설) :

(대립가설) :


 

2) 유의수준 설정

α = 0.05


 

3) 검정통계량


 

두 개의 표본평균 차이에 대한 검정통계량 값은 다음과 같습니다.


 


 

  : 각 표본평균의 평균값

: 각 집단의 표준편차

: 각 집단의 표본의 수


독립표본 T검증의 자유도는 입니다.

 

4) 실행방법

 

독립표본 T검증을 시작하기 위해 [예제 08-2] 파일을 불러온 후 다음과 같은 절차를 따릅니다.

 

분석(A)→평균비교(M)→독립표본 T검정(S)

 

이 절차를 따르면 [그림 6.3]과 같은 대화상자가 나타납니다.

 

 

왼쪽의 변수목록 칸에 있는 변수 중에 독립변수인 성별을 집단변수(G)로, 종속변수인 노인태도를 검정변수(T)로 옮깁니다. 성별을 집단변수(G)로 옮기면 집단정의(D) 버튼이 나타납니다. 그것을 클릭하면 [그림 6.4]가 나타납니다.

 

 

집단에서는 남자를1로 여자를 2로 정의해 주었으므로 각각 1과 2를 입력합니다. 만약에 집단구분 변수로 코딩되지 않고 연속적인 값으로 코딩된 경우에는 중앙값이나 평균을 이용하여 두 집단으로 나누어줍니다. 이때는 [◉ 분리점]을 클릭하고 빈 칸에 중앙값이나 평균값을 입력해 주면 됩니다.

집단을 정의해 준 후 옵션(O)으로 들어가서 신뢰구간과 결측값 제외범위를 정해준 다음 [확인]을 누르면 다음과 같은 결과 창이 나타납니다.


-->집단통계량

 

 

a1

N

평균

표준편차

평균의 표준오차

노인태도

남성

14

2.2808

.1645

4.395E-02

여성

6

2.1667

9.610E-02

3.923E-02

 

-->독립표본 검정

 

 

Levene의 등분산 검정

평균의 동일성에 대한 t-검정

F

유의

확률

t

자유도

유의

확률 (양쪽)

평균차

차이의 표준오차

차이의 95% 신뢰구간

하한

상한

노인태도

등분산이 가정됨

1.529

.232

1.573

18

.133

.1141

.007

-.003

.2665

등분산이 가정되지 않음

 

 

1.937

15.834

.071

.1141

.005

-.001

.2391

독립표본검증 표에 따르면, 두 모집단의 분산이 같다는 가정하에 T-test를 사용하였기 때문에 Levene의 등분산 검정을 하여 등분산 가정에 대한 문제여부를 확인해야 합니다. 여기서는 유의확률이 0.232이므로 을 기각하지 못하므로 등분산 가정에 문제가 없다고 볼 수 있습니다.

등분산을 가정하고 나면 이에 대한 양측검증의 t값이 1.573이고, 유의확률이 0.133이므로 (영가설) : 은 기각할 수 없습니다. 따라서 광고에 따른 판매실적에는 차이가 없다고 결론지을 수 있습니다.


6.3 짝을 이룬 값들의 차이검정 (대응표본 T검증)


 

앞에서 설명한 표본집단은 독립적인 두 집단의 평균차이를 비교한 것입니다. 반면에 대응표본 T검증에서는 하나의 집단을 가지고 어떠한 요소에 의해 전․후를 비교하는 경우가 있습니다. 이것은 표본들이 짝을 이루고 있다고 해서 간단히 짝검증이라는 표현을 쓰기도 합니다.

 

초등학생들을 15명을 대상으로 중간고사 이후에 교육프로그램을 실시한 경우 기말고사에 차이가 있는지를 알아보기로 하였다. 단 교육환경이나 학생들은 동일한 조건을 유지한다고 가정한다.

 

1) 가설설정

 

<연구가설> : 프로그램에 따른 중간고사와 기말고사 점수에는 차이가 있다.

(영가설) :

(대립가설) :

 

대립가설의 경우 다음과 같은 세 가지로 구성할 수 있습니다.


2) 유의수준 설정

 

 

3) 검정통계량

 

대응표본 T검증에 대한 검정통계량 값은 다음과 같습니다.

 


 

= 각 표본요소의 값들의 차이의 평균 값

= 영가설로 설정된 차이의 평균 값

= 표본요소들의 차이값들의 표준편차

    =


 

의 표준편차


 

대응표본 T검증에 대한 자유도는 입니다.


 

4) 실행방법


 

대응표본 T검증을 하기 위해 다음과 같은 절차를 따라가면 [그림 6.5]와 같은 대화상자가 나타납니다. 이를 연습하기 위해 [예제 08-3] 파일을 열어 다음을 따라해봅시다.

 

분석(A)→평균비교(M)→대응표본 T검정(P)

[그림 6.5]에서 보면 왼쪽 변수목록 창에 있는 변수 중 검증하고자 하는 변수를 대응변수(V)로 옮깁니다. 여기서는 중간, 기말 두 변수만 존재하므로 두 변수만을 옮기면 됩니다.

 

 

두 변수를 옮긴 후 옵션(O)에서 신뢰도와 결측치 제외에 관한 것을 설정한 다음 [확인]을 누르면 다음과 같은 결과 창이 나타납니다.

 

대응 표본 검정

 

 

대응차

t

자유도

유의

확률

평균

표준편차

평균의 표준오차

차이의 95% 신뢰구간

하한

상한

대응1 중간-기말

-7.47

7.53

1.94

-11.64

-3.30

-3.841

14

0.002

대응표본검정 표에 나타나 있듯이 t값은 -3.841이고, 유의확률이 0.002이므로 유의수준 0.05에서 (영가설) : 이 기각됩니다. 따라서 새로운 프로그램을 실시한 결과 학생들의 중간고사와 기말고사의 점수에는 차이가 있다고 결론 지을 수 있습니다.


 


 

6.4 단일모집단 비율검증(z)


 

단일모집단 비율검증을 하기 위해서는 기본적으로 이항분포를 사용합니다. 그러나 표본의 크기가 크면 중심극한정리에 의해 정규분포에 가까워지므로 표본의 크기가 큰 경우에도 Z-test를 사용합니다.


 


 

휴대폰 회사에서 새로운 휴대폰을 개발한 후 새로운 휴대폰이 이전 휴대폰보다 시장 점유율이 높은지를 파악하기 위해서 100가구를 조사하였다.


 

1) 가설설정


 

<연구가설> : 새로운 휴대폰의 시장점유율은 20%보다 많을 것이다.

(영가설) :

(대립가설) :


 

2) 유의수준 설정


 


 

3) 검정통계량


 

  = 비율추정치로서 표본의 비율 값

= 영가설로 설정된 모집단의 비율 값

=

  = 의 표준오차


 

단일모집단 비율 검증의 자유도는 입니다.


 

4) 실행방법


 

단일모딥단 비율 검증을 시작하기 위해 [예제 08-4] 파일을 불러온 후 다음과 같은 절차를 따릅니다.

 

분석(A)→비모수검정(N)→이항(B)

이 절차를 따르면 [그림 6.7]과 같은 대화상자가 나타납니다.

 

 

 

왼쪽 상단의 변수목록 칸에 있는 변수를 검정변수(T)로 옮겨준 후 검정비율에서 검정하고자하는 값을 입력해 줍니다. 여기서는 20%로 설정하였으므로 .20을 입력합니다. 그러고 나서 정확(X)과 옵션(O)을 설정해 주기 위해 자세히 알아봅시다.


① 이분형 정의

 

데이터로부터 얻기(G)

입력된 데이터에 따라 케이스들이 이분되도록 설정하는 기능입니다.

분리점(C)

분리점에서 지정한 값을 기준으로 케이스를 이분하도록 하는 기능입니다.


 

② 정확(X)


 

점근적 검정(A) : 유의수준은 검증통계량의 점근적인 분포를 토대로 계산되는데 일반적으로 0.05미만의 값을 유의미한 것으로 간주합니다. 점근적 유의확률은 데이터 파일이 크다는 가정을 기준으로 합니다.

 

③ 옵션(O)

 

옵션에서는 통계량과 결측값을 설정합니다.

 

검정별 결측값 제외(T)

해당 검증과 관련된 변수에 대해 결측값이 있는 케이스를 분석에서 제외시킵니다.

목록별 결측값 제외(L)

결측값이 있는 케이스는 모든 분석에서 제외시킵니다.

 

이 과정을 모두 설정한 다음 [계속]을 누른 후 [확인]을 누르면 다음과 같은 결과 창이 나타납니다.

 

-->이항검정

 

 

범주

N

관측비율

검정 비율

근사 유의확률 (한쪽)

휴대폰

집단 1

구매함

15

.3

.2

.056(a)

집단 2

구매안함

35

.7

 

 

합계

 

50

1.0

 

 

a Z 근사법을 기준으로.

위의 결과에 따르면 근사유의확률이 .056이므로 보다 그 값이 크므로 그 값이 유의적이지 못하며, (영가설) : 를 기각하지 할 수 없습니다. 따라서 새로운 휴대폰의 시장점유율은 20%보다 많다고 볼 수 없습니다.

 

6.5 두 모집단 비율차이 검증(z)

 

두 모집단의 비율차이 검증을 위해 단일 모집단 비율 검증에서와 같이 이항분포를 사용합니다. SPSS에서는 두 모집단 비율차이검증을 직접 할 수 있는 분석기능이 없습니다. 따라서 두 모집단의 비율차이 검증은 독립성검증()에 의해서 분석이 가능합니다. 여기서는 이론적인 분석방법에 대해서만 다루겠습니다.


 

이동전화기 시장에서 소비자들을 공략하기 위해 이들이 선호하는 mp3기능 휴대폰을 출시할 경우 남녀별로 새로운 휴대폰이 기존의 휴대폰보다 선호도가 높은지에 대해 조사하고자 한다.


 

1) 가설설정


 

를 각각 남자와 여자에 있어 mp3기능 휴대폰을 더 선호하는 응답자의 비율이라고 하면, 가설은 다음과 같습니다.


 

<연구가설> : 남녀별로 mp3기능 휴대폰의 선호도에는 차이가 있다.

(영가설) :

(대립가설) :


 

2) 검정통계량


 

              

: 각 집단의 표본 수

3) 기각여부


 

가설채택의 기준으로 유의수준을 0.05로 설정하였다면, 에서의 이므로 계산된 값이 보다 크다면 영가설을 기각할 수 있습니다. 만약 여기서 영가설이 기각된다면 남녀별로 mp3기능 휴대폰의 선호도에는 차이가 있다고 할 수 있습니다.