11. 요인분석

11.1 요인분석

 

요인분석(factor analysis)은 수집된 많은 변수들을 유사한 항목(공통차원)들끼리 묶어 적은 수의 요인으로 축소시키는 분석방법입니다. 요인분석에서는 독립변수와 종속변수가 없으며, 모든 변수들간의 관계를 분석함으로써 변수들의 토대를 이루는 요인을 발견합니다. 요인분석을 하기 위한 변수는 간격척도 이상에 의해서만 측정이 가능하며, 표본의 크기 또한 100개 이상이 되어야 바람직하며,  변수의 수는 관측치의 수보다 10배 이상이 되어야 바람직합니다. 요인분석은 주어진 자료 자체를 분석하는 것으로 분석결과로부터 모집단의 특성에 대한 추정을 할 수 없습니다.


<요인분석의 용도>

① 데이터의 양을 줄여 정보를 요약하는 경우

② 변수들 내부에 존재하는 구조를 파악하려는 경우

③ 요인으로 묶어지지 않는 변수 중 중요도가 낮은 변수를 제거하고자 하는 경우

④ 같은 개념을 측정하려고 하는 변수들이 동일한 요인으로 묶이는지 확인하고자 하는 경우

⑤ 요인분석을 통하여 얻어진 요인들을 회귀분석이나 판별분석에서 설명변수로 활용하고자 하는 경우

 

<요인분석방법>

요인분석방법은 자료의 총분산을 구성하는 요소 중 어느 부분을 사용하느냐에 따라 다음과 같은 두 가지로 구성됩니다.

① 주성분분석(principle component analysis) : 원래의 변수들의 분산 중 가급적 많은 부분을 설명하는 소수의 요인을 추출하는데 목적이 있고, 공통분산이 크다는 사실을 아는 경우에 적절합니다. 주성분분석의 경우 상관행렬의 대각선에 1이 사용되는데 이는 모든 분산이 공유된다는 것을 의미합니다.

② 공통요인분석(common factor analysis) : 원래 변수들의 토대가 되는 잠재차원들을 찾아내고, 분산의 구성에 대한 사전지식이 별로 없는 경우에 적절합니다.


 

<요인분석절차>

① 상관관계와 요인의 도출

요인분석을 하기 위해 변수들간의 상관관계를 계산해야 한 후 상관관계가 높은 변수들을 묶어 줍니다.


 

② 요인의 수 결정과 추출된 요인의 평가

요인분석에서 요인의 수는 분석에 사용된 변수들의 수보다 작은 범위 내에서 추출할 수 있습니다. 가능한 한 적은 요인이 추출되는 것이 바람직합니다.

요인의 수를 결정하는 방법에는 크게 4가지가 있습니다.

․아이겐값(Eigenvalue) : 각 요인이 기존변수의 정보를 어느 정도 설명하는지를 나타내는 지표입니다. 아이겐값이 크다는 것은 그 요인이 변수들이 분산을 잘 설명한다는 것을 의미합니다. 변수의 수가 20개를 넘을 경우에 사용하는 것이 적절하며, 변수의 수가 작은 경우에 사용하는 것은 적절하지 않습니다.

․설명력 : 설명력의 경우 뚜렷한 기준은 없으나, 보통 요인들의 설명력의 합을 60%내외로 사전 정의하고 그 수준의 설명력을 가져오는 요인들을 추출하는 방법입니다.

․사전 결정 : 요인분석에서 추출될 요인의 수를 미리 결정하여 그 수만큼 요인을 추출하는 방법입니다. 이 방법은 사전에 수행된 연구를 반복하거나 연구자가 그 요인수에 대해 잘 알고 있는 경우에 많이 사용합니다.

․스크리 도표

스크리 도표는 각 요인의 아이겐값을 그림으로 보여주는데 요인의 수가 커질수록 아이겐값은 점차 작아집니다. 이 때 체감하기 직전까지의 요인의 수를 기준으로 요인을 추출하게 됩니다.

 

③ 요인의 회전

요인분석을 하게 되면 요인행렬이 구해지는데 요인행렬에 있는 요인적재값은 각 변수와 해당 요인간의 상관계수입니다. 그런데 이 요인행렬은 기초자료를 축소시켜 보여주기는 하지만, 이로부터 어떤 변수들이 어떤 요인에 의해 높게 관계되는지 명확하게 알기 어렵기 때문에 추출된 요인을 회전하여 그에 따른 요인구조를 명확히 알아냅니다. 즉, 요인축을 회전함으로써 어떤 변수가 어떤 요인에서 높게 나타나는지 알 수 있게 됩니다.

요인회전방식은 크게 직각회전(orthogonal solution)방식과, 사각회전(obloque rotation)으로 나누어집니다.

․직각회전방식

회전축이 직각을 유지하면서 회전하므로 요인들간의 상관계수가 0이 됩니다. 상관계수가 0이므로 요인들간의 관계가 상호 독립적인 경우에 사용할 수 있습니다. 다중공선성을 피하기 위한 방법으로 사용할 때에도 유용하며, 직각회전방식에는 Varimax, Quartimax, Equimax 등이 있습니다.

․사각회전방식

사각회전방식은 요인을 회전시킬 때 요인들이 서로 직각을 유지하지 않은 채로 높은 요인부하량은 더 높아지도록, 낮은 요인부하량은 더 낮아지도록 하는 방식입니다.

 

④ 요인점수의 계산

요인분석을 통해 얻어진 새로운 요인들은 차후의 분석에 이용하기 위해 각 응답자별로 새로운 요인점수를 계산해 줍니다. 응답자별 요인점수는 요인점수계수를 이용하여 계산해 주는데 요인점수계수는 응답자별로 각 요인점수를 구하는데 이용되는 원래 변수들의 중요도를 말하는 것입니다.

 

<용어해설>

① 요인적재량(Factor loading) : 각 변수와 요인간의 상관관계의 정도를 말합니다. 각 변수들은 요인적재량이 높은 요인에 속하게 되는데, 그에 대한 기준은 보통 ±0.3 이상으로 봅니다. 적재량의 유의석은 표본의 수, 변수의 수, 요인의 수 등에 따라 달라집니다.

② 고유치 : 특정요인에 적재된 모든 변수의 적재량을 제곱하여 합한 값으로 특정 요인에 대한 표준화된 분산을 말합니다.

③ 공유치 : 요인분석에서 공통요인들에 의해 설명되어지는 변수의 분산비율을 말합니다.

 

예(염광열 분석)

복합운송주선업의 발전요인 중요도에 대하여 요인분석을 실시하고자 한다. 설문문항은 다음과 같습니다.

 

c1

업체간 전략적 제휴 등을 통하여 공동화?통합화로 대형화가 필요하다

c2

전국적인 물류네트워크 및 물류정보시스템이 구축되어야 한다

c3

국제복합일관운송서비스 전체로 서비스 범위를 확대하여야 한다

c4

제3자 물류기업으로 전화하여야 한다

c5

포워더의 경영자의 자질이 향상되어야 한다

c6

포워더에게 동관업기능을 부여하여야 한다

c7

체계적인 인재양성 프로그램개발 및 인재활용방안이 갈구되어야 한다

c8

정부의 제도 개선이 시급하다

c9

공동 물류센터 등 기반시설이 확장되어야 하고 그에 대한 활성화 방안이 수립되어야 한다

c10

복합운송주선업에 대한 금융 및 정책자금이 지원되어야 한다

c11

협회 및 정부차원에서 해외진출을 지원해야 한다

c12

복합운송과 관련하여 흩어진 법제도를 일원화하여야 한다

11.2 요인분석 실행방법

1) 연구문제

12개의 변수가 몇 개의 의미 있는 요인으로 묶일 수 있는가?

각 변수는 어느 요인과 주로 관련성이 높은가?

2) 실행방법

요인분석을 실행하기 위해서는 [예제 13-1]를 불러 다음과 같은 절차를 따릅니다.

 

분석(A)→데이터 축소(D)→요인분석(F)

이 절차를 따르면 [그림 11.1]과 같은 대화상자가 나타납니다.

 

①, ② 변수목록 칸에 있는 변수 중 분석하고자 하는 변수를 변수(V)로 옮깁니다. 여기서는 c1~c12까지 옮겨줍니다.

③ 기술통계(D)

기술통계량에 대해 처리할 내용을 지정할 수 있습니다. 여기서는 상관관계와 유의수준을 설정해 준 다음 [계속]을 누릅니다.

 

통계량

일변량 기술통계(U)

각 변수들에 대한 평균, 표준판차, 사례수가 제시됩니다.

초기해법(I)

초기 커뮤낼리티, 고유치,설명된 분산의 비율, 초기 요인분석의 해가 제시됩니다. 이 해에서는 각각의 변수가 하나의 요인이 됩니다.

상관행렬

상관계수(C)

분석을 위해 지정된 변수들 간의 상관관계 행렬을 제시합니다.

역 모형(N)

역상관관계행렬과 공분산행렬이 제시됩니다.

유의수준(S)

상관관계행렬에서의 계수에 대한 단측 유의수준이 제시됩니다.

재연된 상관행렬(R)

관측된 상관계수와 추정된 그들의 잔차의 행렬이 제시됩니다.

행렬식(D)

상관계수 행렬의 행렬식의 값이 제시됩니다.

역-이미지(A)

역-이미지 공분산 행렬과 역-이미지 상관관계 행렬이 제시됩니다.

KMO와 Bartlett의 구형성 검정(K)

Kaise-Meyer-Olkin측도와 Bartlett의 구형성 검정치를 제시합니다.

 

④ 요인추출(E)

요인추출 방법과 기준을 지정할 수 있습니다. 여기서는 출력에 있는 회전하지 않은 요인해법과 스크리도표만 설정해 준 후 나머지는 기본 설정으로 한 다음 [계속]을 누릅니다.

 

방법

(M)

주성분

변수들을 요인들의 선형결합으로 가정하는 것으로 가장 많이 사용되는 방법입니다.

가중되지 않은 최소제곱법

측정된 상관관계와 추정된 상관관계와의 차이의 제곱을 최소화하는 방법입니다.

일반화 최소제곱법

변수들의 유일성에 의해 변수에 가중치를 부여하여 측정치와 추정치의 상관관계의 차이의 제곱을 최소화하는 방법입니다.

최대우도

다변수 정규모집단에서 표본이 얻어진 것으로 가정하여 측정된 상관관계에 가장 유사한 매개변수의 추정치를 산출하는 방법입니다.

주축요인추출

초기의 커뮤낼리티의 추정치를 제곱하여 다중상관관계를 사용하는 것을 말합니다.

알파요인추출

변수들을 가능한 한 변수 전체에서 얻어진 표본으로 가정하는 것을 말합니다.

이미지요인추출

변수들의 이미지에 근거한 분석을 말합니다.

분석

상관행렬

변수들간의 상관행렬이 제시됩니다.

공분산행렬

변수들간의 공분산행렬이 제시됩니다.

추출

요인선정의 기준으로 다음 중 하나를 선택할 수 있습니다.

[고유값 기준(E)] 지정한 고유값(1) 이상의 값을 갖는 요인만을 추출하는 것을 말합니다.

[요인의 수(N)] 고유값과 관계없이 추출될 요인의 수를 사전에 지정할 수 있습니다.

출력

회전하지 않은 요인해법(F)

요인패턴행렬, 수정된 커뮤낼리티, 고유치, 추출된 요인에 대한 설명된 분산비율이 제시됩니다.

스크리 도표(S)

내림차순의 고유치 그래프가 제시됩니다.

수렴에 대한 최대반복계산수(X) 25

해를 추정하기 위해 알고리즘이 취할 최대의 단계수를 지정해 줍니다. 기본설정으로 할 경우에는 25회까지 반복계산을 합니다.

 

⑤ 요인회전(T)

요인해석을 위한 회전방법을 지정할 수 있습니다. 여기서는 방법에서 베리멕스를 지정해주고, 출력에서는 회전해법과 적재값 도표를 지정해 준 후 다른 것은 기본설정 상태로 해 줍니다.

 

방법

(M)

지정않음(N)

추출된 요인들을 회전시키지 않는 것으로 기본설정으로 되어 있습니다.

베리멕스(V)

요인행렬의 열(column)의 분산의 합계를 최대화함으로써 요인의 해석을 단순화하는 방법으로 가장 많이 사용되는 방법입니다.

쿼티멕스(Q)

행(row)을 중심으로 한 변수가 한 요인에 가급적 높게, 다른 요인에는 가급적 낮게 적재되도록 함으로써 변수의 해석을 단순화하기 위한 방법입니다.

이쿼멕스(E)

베리멕스와 쿼티멕스를 절충한 방법입니다.

직접 오블리민(O)

직각이 아닌 사각요인회전방식으로 상관관계가 0이 아니며, 요인들 간의 상관관계가 어느 정도까지 허락되게 할 것인지를 지정해 주는 방법입니다.

출력

회전해법(R)

회전된 요인행렬을 제시해 줍니다.

적재값 도표(L)

여러 요인 중 두 개의 요인끼리 짝을 지어 그 변수드르이 적재치를 보여주는 그래프가 제시됩니다.

수렴에 대한 최대반복계산수(X) 25

해를 추정하기 위해 알고리즘이 취할 최대의 반복횟수를 지정해 줍니다. 기본설정으로 할 경우에는 25회까지 반복계산을 합니다.

 

⑥ 요인점수(S)

요인점수에 관련된 사항들을 지정해 줄 수 있습니다. 여기서는 변수로 저장에 있는 방법에서 회귀분석과 요인점수 계수행렬 출력을 설정해 준 다음 [계속]을 누릅니다.

 

 

변수로 저장

(S)

<방법>

회귀분석(R)

평균이 0으로 하고 개개의 참 요인값과 추정된 요인 가느이 차이를 제곱한 값이 최소가 되게 하는 것입니다.

Bartlett(B)

평균을 0으로 하고 변수들 간의 범위에서 고유한 요인들의 제곱한 값의 합이 최소가 되게 하는 것입니다.

Anderson-Rubin 방법(A)

평균이 0, 표준편차가 1로 하고 추정된 요인들이 상관관계가 없음을 확인하기 위해 Bartlett값을 수정하는 것입니다.

요인점수 계수행렬 출력(D)

요인점수를 얻기 위한 각 변수들에 곱해지는 계수행렬을 제시해 줍니다.

 

⑦ 옵션(O)

무응답과 결과의 제시 방법에 대해 지정할 수 있습니다. 여기서는 계수출력형식에 있는 크기순 정렬을 설정해 준 후 나머지는 기본설정으로 한 다음 [계속]을 누릅니다.

 

 

결측값

목록별 결측값 제외(L)

모든 변수에 대해 데이터가 유효한 사례만을 사용하여 요인분석을 하는 것을 말합니다.

대응별 결측값 제외(P)

각 변수의 쌍에 대해 데이터가 유효한 사례만을 사용하여 요인분석을 하는 것을 말합니다.

평균으로 바꾸기(R)

어떤 변수에 대한 데이터가 무응답으로 처리된 경우 변수평균으로 대체하여 요인분석을 실행하는 것을 말합니다.

계수출력형식

크기순 정렬(S)

각 요인에 따라 변수들을 집단화하고 적재치의 크기에 따라 순차적으로 나타나게 합니다.

다음 값보다 작은 절대값 출력 않음(U)

절대값이 지정한 값보다 작은 계수는 출력되지 않게 하는 조건으로 0.1이 기본설정으로 되어 있습니다. 이 값은 0~1 사이에서 바꿔줄 수 있습니다.

상관행렬

 

 

C1

C2

C3

C4

C5

C6

C7

C8

C9

C10

C11

C12

상관계수

C1

1.000

.573

.508

.339

.343

.292

.473

.397

.324

.377

.411

.506

C2

.573

1.000

.587

.536

.300

.340

.537

.312

.664

.313

.418

.325

C3

.508

.587

1.000

.357

.418

.393

.446

.338

.537

.524

.533

.516

C4

.339

.536

.357

1.000

.304

.493

.282

.505

.437

.055

.145

.252

C5

.343

.300

.418

.304

1.000

.355

.680

.530

.169

.200

.354

.492

C6

.292

.340

.393

.493

.355

1.000

.394

.458

.335

.193

.419

.447

C7

.473

.537

.446

.282

.680

.394

1.000

.412

.347

.269

.577

.588

C8

.397

.312

.338

.505

.530

.458

.412

1.000

.378

.503

.252

.538

C9

.324

.664

.537

.437

.169

.335

.347

.378

1.000

.374

.327

.354

C10

.377

.313

.524

.055

.200

.193

.269

.503

.374

1.000

.579

.537

C11

.411

.418

.533

.145

.354

.419

.577

.252

.327

.579

1.000

.755

C12

.506

.325

.516

.252

.492

.447

.588

.538

.354

.537

.755

1.000

유의확률 (한쪽)

C1

 

.000

.000

.000

.000

.001

.000

.000

.000

.000

.000

.000

C2

.000

 

.000

.000

.001

.000

.000

.001

.000

.000

.000

.000

C3

.000

.000

 

.000

.000

.000

.000

.000

.000

.000

.000

.000

C4

.000

.000

.000

 

.001

.000

.002

.000

.000

.287

.067

.004

C5

.000

.001

.000

.001

 

.000

.000

.000

.040

.019

.000

.000

C6

.001

.000

.000

.000

.000

 

.000

.000

.000

.023

.000

.000

C7

.000

.000

.000

.002

.000

.000

 

.000

.000

.002

.000

.000

C8

.000

.001

.000

.000

.000

.000

.000

 

.000

.000

.004

.000

C9

.000

.000

.000

.000

.040

.000

.000

.000

 

.000

.000

.000

C10

.000

.000

.000

.287

.019

.023

.002

.000

.000

 

.000

.000

C11

.000

.000

.000

.067

.000

.000

.000

.004

.000

.000

 

.000

C12

.000

.000

.000

.004

.000

.000

.000

.000

.000

.000

.000

 

상관행렬 표에서는 요인분석에 이용된 변수들간의 상관관계계수와 계수의 유의성을 보여줍니다. 그러나 여기서 주의할 점은 요인분석에 포함된 변수들이 모두 상관관계가 높거나 모두 낮은 경우에는 요인분석을 하는 것이 부적합하다는 것입니다. 여기서 일부 변수들 간에 높고 낮은 상관관계가 있어야 몇 개의 공통요인을 추출할 수 있기 때문입니다.

 

--> 공통성

 

 

초기

추출

C1

1.000

.483

C2

1.000

.776

C3

1.000

.663

C4

1.000

.790

C5

1.000

.743

C6

1.000

.507

C7

1.000

.655

C8

1.000

.569

C9

1.000

.723

C10

1.000

.691

C11

1.000

.758

C12

1.000

.785

추출 방법: 주성분 분석.

 

공통성 표에서는 추출된 요인들에 의해 각 변수가 얼마나 설명되는지를 나타내는 공통성을 보여줍니다. 공통성이라는 것은 그 변수의 분산이 추출된요인들에 의해 설명되는 정도이며, 그 값은 0과 1사이입니다. 공통성은 각 요인의 제곱의 합으로 나타냅니다. 표에서 보면 C1의 값이 .483이므로 이들 세 요인으로 48%가 설명되고, 나머지 62%는 설명되지 않는다고 판단하면 됩니다. 그러므로 공통성 값이 낮은 변수는 요인분석에서 제외하는 것이 좋은데 그 기준은 보통 40%으로 그 기준보다 낮으면 제외하는 것이 좋습니다.

 

-->설명된 총분산

 

 

초기 고유값

추출 제곱합 적재값

회전 제곱합 적재값

성분

전체

% 분산

% 누적

전체

% 분산

% 누적

전체

% 분산

% 누적

1

5.586

46.547

46.547

5.586

46.547

46.547

2.781

23.175

23.175

2

1.374

11.448

57.995

1.374

11.448

57.995

2.771

23.096

46.271

3

1.183

9.862

67.857

1.183

9.862

67.857

2.590

21.587

67.857

4

.906

7.551

75.408

 

 

 

 

 

 

5

.744

6.202

81.610

 

 

 

 

 

 

6

.608

5.070

86.680

 

 

 

 

 

 

7

.473

3.946

90.626

 

 

 

 

 

 

8

.366

3.052

93.678

 

 

 

 

 

 

9

.327

2.722

96.400

 

 

 

 

 

 

10

.182

1.513

97.913

 

 

 

 

 

 

11

.149

1.240

99.154

 

 

 

 

 

 

12

.102

.846

100.000

 

 

 

 

 

 

추출 방법: 주성분 분석.

 

설명된 총분산 표에서는 촤즉부분의 12개의 변수로부터 처음에 9개 요인이 추출된 경우의 각 요인의 고유값과 각 요인의 설명력을 보여줍니다. 요인을 추출할 개수를 결정하기 위해 Eigenvalue를 1로 지정해 주었으므로 고유값이 1 이상인 요인만이 추출되었는데, 여기서는 3개의 요인이 추출되었습니다.

고유값이라는 것은 그 요인을 설명하는 분산의 양을 나타내는 것으로 이 값이 높을수록 중요한 요인이라고 판단할 수 있는데, 여기서는 요인1이 가장 중요한 요인이라고 볼 수 있습니다.

Eigenvalue는 그 요인에 속한 요인적재값의 제곱의 합계입니다.

설명력은 그 요인이 전체분산을 설명하는 비율(%)을 말합니다.

%누적은 추출된 요인들이 전체분산을 설명하는 비율(%)을 말합니다.

 

스크리 도표는 12개의 요인을 고유치의 크기순으로 꺾은선 그래프를 그린 것입니다. 고유값 1을 만족시키는 요인의 수는 보는 바와 같이 3개입니다.

 

-->성분행렬(a)

 

 

성분

1

2

3

C12

.785

-.394

.115

C3

.761

-1.697E-02

-.291

C7

.746

-.123

.287

C2

.723

.372

-.338

C11

.721

-.472

-.124

C1

.684

7.264E-03

-.122

C8

.678

9.988E-02

.314

C9

.637

.349

-.442

C5

.631

-8.379E-02

.581

C6

.618

.216

.280

C10

.606

-.443

-.358

C4

.557

.678

.142

요인추출 방법: 주성분 분석.

a 추출된 3 성분

 

-->회전된 성분행렬(a)

 

 

성분

1

2

3

C5

.836

.210

1.017E-02

C7

.669

.415

.186

C8

.665

.205

.290

C6

.611

9.786E-02

.353

C11

.301

.806

.129

C10

4.776E-02

.806

.198

C12

.535

.699

.103

C3

.226

.563

.543

C1

.316

.438

.437

C2

.194

.279

.813

C9

5.809E-02

.284

.800

C4

.498

-.219

.703

요인추출 방법: 주성분 분석.

회전 방법: Kaiser 정규화가 있는 베리멕스.

a 9 반복계산에서 요인회전이 수렴되었습니다.

 

-->성분 변환행렬

 

성분

1

2

3

1

.602

.582

.547

2

.073

-.722

.688

3

.795

-.374

-.478

요인추출 방법: 주성분 분석.

회전 방법: Kaiser 정규화가 있는 베리멕스.

-->성분점수 계수행렬

 

 

성분

1

2

3

C1

-.008

.106

.120

C2

-.129

-.013

.393

C3

-.114

.180

.183

C4

.192

-.344

.337

C5

.454

-.074

-.215

C6

.266

-.138

.056

C7

.267

.052

-.105

C8

.289

-.081

-.010

C9

-.210

.022

.416

C10

-.199

.409

-.018

C11

-.031

.362

-.116

C12

.141

.253

-.167

요인추출 방법: 주성분 분석.

회전 방법: Kaiser 정규화가 있는 베리멕스.

요인 점수.

 

-->성분점수 공분산행렬

 

성분

1

2

3

1

1.000

1.483E-16

-1.685E-16

2

1.483E-16

1.000

.000

3

-1.685E-16

.000

1.000

요인추출 방법: 주성분 분석.

회전 방법: Kaiser 정규화가 있는 베리멕스.

요인 점수.