군집분석은 여러특성 기초로 동일집단을 여러집단으로 분류하는 분석입니다.


요인분석과의 차이점은

요인분석은 상관관계 기반으로 집단을 나누는데 반하여,

군집분석은 점들 사이의 거리를 기준으로 집단을 나눈다는 점입니다.


군집분석을 통해 몇 개의 군집으로 분류할지에 대해서는 연구자가 선택할 수 있습니다.

3개로 나눌 수 있고, 5개로 나눌수도 있습니다.

즉, 연구자의 선택에 따라 세분화 정도가 달라질 수 있습니다.

이렇게 연구자의 개입이 가능하다는 이유로, 군집분석을 불완전한 분석 또는 비과학적 분석이라고 하기도 합니다.

하지만 시장을 세분화하여 타겟을 정하는데 큰 도움이 되는 분석방법입니다.


예제로 사용할 SPSS 파일이 준비되어 있지 않으신 분은 아래의 파일을 다운로드 해주세요.


rawdata5(sample).sav




※ 이미지들은 클릭하면 원본이미지로 크게 보실 수 있습니다.


1. 직원들의 여가만족의 하위요인인 가족생활/취미활동/자기계발에 따라 집단을 분류해보겠습니다.


위에 첨부된 파일을 열어 데이터편집기를 보면,

AA에는 가족생활

AB에는 취미활동

AC에는 자기계발의 만족에 대한 응답값들이 있습니다.



메뉴에서 [분석-분류분석-K평균군집분석]을 선택합니다.



집단을 분류할 특성인 AA, AB, AC를 변수로 설정합니다.




반복계산 옵션에서 최대반복계산수는 기본값이 10으로 되어 있습니다. 유지합니다.



저장 옵션에서 소속군집을 선택합니다.

(변수(사람들)마다 소속된 군집의 값이 추가됩니다.)



옵션에서는 분산분석표를 선택합니다.



군집의 수는 기본적으로 2로 되어 있습니다.

일단 2개의 군집으로 군집분석을 실행합니다.



분석결과를 보면 

군집1: 107명

군집2: 93명

으로 분류되었습니다.

좀 더 세분화된 분류를 위해 3개의 군집으로 분류해보겠습니다.



군집의 수를 3으로 수정한 후

동일한 방법으로 다시 분석을 실행합니다.



분석결과를 보면 

군집1: 39명

군집2: 73명

군집3: 88명

으로 분류되었습니다.



군집1만 사람 수가 적은 것 같아, 4개의 군집으로 분류해보겠습니다.




분석결과를 보면 

군집1: 44명

군집2: 76명

군집3: 13명

군집4: 67명

으로 분류되었습니다.



마지막으로 5개의 군집으로 분류해보겠습니다.



분석결과를 보면 

군집1: 52명

군집2: 46명

군집3: 35명

군집4: 33명

군집5: 34명

으로 분류되었습니다.




5개의 군집별 중심값을 보여줍니다.

(뒤에 나올 최종 군집중심이 더 중요합니다.)



최대 반복계산수를 10회로 지정했지만 6번만에 수렴하였습니다.



6번의 반복계산 후의 각 군집별 중심값입니다.


군집1은 전 특성이 낮은 집단입니다.

군집2은 AC(자기계발)과 가족생활(AA)의 특성이 높은 집단입니다.(취미활동(AB)은 매우 낮습니다.)

군집3은 특별히 높지도 낮지도 않은 평범한 집단입니다.

군집4은 AC(자기계발) 특성이 매우 높은 집단입니다.

군집5은 AB(취미활동) 특성이 높은 집단입니다.



분산분석에 대한 정보를 확인하고 넘어갑니다.



각 군집별로 

군집1: 52명

군집2: 46명

군집3: 35명

군집4: 33명

군집5: 34명

으로 분류되었습니다.




2. 군집별 인구통계적 특성을 분석합니다.


분류된 5개의 집단을 대상으로 카이제곱 검정을 추가 실시합니다.


데이터 편집기의 오른쪽에 QCL_1~QCL_4까지의 군집분류값이 추가되어 있습니다.

QCL_1은 2분류 하였을 때 군집분류값

QCL_2은 3분류 하였을 때 군집분류값

QCL_3은 4분류 하였을 때 군집분류값

QCL_4은 5분류 하였을 때 군집분류값

입니다.


5분류를 기준으로 카이제곱 검정을 실시할 것이기 때문에,

QCL_1~QCL_3은 삭제하고, QCL4_4는 [군집분류]로 변수명을 수정합니다.





카이제곱분석을 실시합니다.

(카이제곱 검정의 자세한 방법은 아래 페이지에서 확인할 수 있습니다.)

(2016/02/10 - [논문통계/SPSS] - SPSS에서 카이제곱 분석으로 변수들간의 독립성과 관련성 분석하기)



열에는 독립변수인 성별(D1), 연령(D2), 직급(D6)를 설정하고,

행에는 종속변수인 군집분류를 설정합니다.




카이제곱 검정 결과값을 확인합니다.




결측값 없이 200명 전원 분석에 반영되었습니다.



군집별 성별 분포를 확인할 수 있습니다.



군집별 연령 분포를 확인할 수 있습니다.



군집별 직급 분포를 확인할 수 있습니다.




3. 군집별 이직의도의 차이를 확인합니다.


분류된 5개의 집단을 대상으로 이번에는 One-Way-ANOVA 분석을 추가 실시합니다.



One-Way-ANOVA 분석을 진행합니다.

(One-Way_ANOVA 분석방법의 자세한 방법은 아래 페이지에서 확인할 수 있습니다.)

2016/01/17 - [논문통계/SPSS] - SPSS에서 One-Way-Anova(일원배치분석)으로 여러 집단간의 평균 비교하기



독립변수에는 군집번호를, 종속변수에는 이직의도를 설정합니다.



분석결과를 확인합니다.




독립변수는 5집단으로 구성되어 있습니다.

종속변수는 이직의도 1개 입니다.



이직의도의 등분산 검정의 유의확률은 0.053으로 0.05보다 큽니다.

따라서 이직의도는 '등분산이 가정됨'을 기준으로 합니다.



분산분석을 보면, 이직의도의 유의확률이 0.000으로

집단간 평균차이가 있다고 볼 수 있습니다.




'등분산이 가정됨'을 기준으로 하므로, Scheffe를 확인합니다.

군집2와 군집4

군집3과 군집4

군집4와 군집5

사이에 이직의도 평균의 차이가 있는 것으로 나타났습니다.

특히, 군집4와 군집5의 이직의도 차이가 0.96643으로 가장 크게 나타났습니다.






4. 지금까지의 결과를 논문에 작성합니다.












정리하자면, 위의 이미지와 같이 뷰어에 군집분석 4번, ANOVA 분석 1번, 카이제곱 1번

총 6번의 분석결과가 기록되어 있는 뷰어 파일이 만들어졌습니다.

아래와 같이 저장되어 있으면 성공입니다.


출력결과(군집분석).spv



이전에 설명드렸던, ANOVA와 카이제곱까지 추가로 활용하여 군집을 분류하고 특성들을 확인하였습니다.

이상으로 SPSS 논문통계를 마칩니다.


수고 많으셨습니다.^^






관련 글 보기


2015/12/03 - [논문통계/SPSS] - SPSS에서 엑셀데이터 불러와서 저장하기(예제파일포함)


2015/12/03 - [논문통계/SPSS] - SPSS에서 빈도분석으로 인구통계적 특성 파악하기


2015/12/05 - [논문통계/SPSS] - SPSS에서 요인분석으로 타당도 측정하기


2015/12/05 - [논문통계/SPSS] - SPSS에서 크론바흐 알파(Cronbach's α)로 신뢰도 측정하기


2015/12/06 - [논문통계/SPSS] - SPSS에서 변수 계산으로 요인 평균값 만들기


2015/12/06 - [논문통계/SPSS] - SPSS에서 상관관계분석으로 변수 간 상관도 분석하기


2015/12/06 - [논문통계/SPSS] - SPSS에서 회귀분석으로 영향을 미치는지 확인하기


2015/12/06 - [논문통계/SPSS] - SPSS에서 3단계 회귀분석으로 매개변수의 매개효과 확인하기


2015/12/06 - [논문통계/SPSS] - SPSS에서 위계적 회귀분석으로 조절변인의 조절효과 확인하기


2016/01/11 - [논문통계/SPSS] - SPSS에서 더미변수를 이용하여 회귀분석하기


2016/01/11 - [논문통계/SPSS] - SPSS에서 T-test로 두 집단간의 평균 비교하기


2016/01/17 - [논문통계/SPSS] - SPSS에서 One-Way-Anova(일원배치분석)으로 여러 집단간의 평균 비교하기


2016/02/10 - [논문통계/SPSS] - SPSS에서 카이제곱 분석으로 변수들간의 독립성과 관련성 분석하기


2016/02/10 - [논문통계/SPSS] - SPSS에서 군집분석으로 집단을 군집으로 분류한 후 특성 확인하기

  1. 2016.11.01 14:10

    비밀댓글입니다

  2. 2017.04.03 23:19

    비밀댓글입니다

    • Favicon of https://learnx.tistory.com BlogIcon Learn X BboL 2017.04.05 10:32 신고

      그런 경우 보통 상위 50% 하위 50%로 나눠서 진행하더라구요.ㅎ 두 집단비교를 한다고 생각하시고 진행하시면 편하십니다.^^

  3. 2017.09.03 06:15

    비밀댓글입니다

    • Favicon of https://learnx.tistory.com BlogIcon Learn X BboL 2017.09.04 10:29 신고

      맞아요. 군집4와 군집5를 빠뜨렸네요.ㅎㅎ 고맙습니다. 이런 실수가 매우 잦요.ㅎ 영국생활 부럽네요 건강유의하세요 고맙습니다.

  4. Favicon of https://learnx.tistory.com BlogIcon Learn X BboL 2017.09.04 10:34 신고

    일부 내용 수정중입니다.^^ 수정이 완료되면 본 댓글을 삭제하겠습니다.

  5. 2017.09.11 16:15

    비밀댓글입니다

  6. 심통 2017.09.20 21:55

    안녕하세요
    A변인 가지고 요인분석을 하는데 잘 안되서요.
    제가 해보니 AA변인이 너무 많이 제거 되서요.
    혹시 어떤 것들을 제거하신지 알 수 있을까요?

    • Favicon of https://learnx.tistory.com BlogIcon Learn X BboL 2017.10.01 18:43 신고

      본 포스팅은 요인분석이 아니라 군집단위 분석입니당..-_-;;

  7. Favicon of http://hrdkorea.or.kr BlogIcon kim hyeonsaeng 2017.11.08 22:29

    감사합니다.^^

  8. XHDRp 2018.11.06 13:53

    포스팅 잘 읽었습니다.
    한가지 궁금한게 있습니다.
    군집 분류를 위한 특성에 3가지를 넣으셨는데 만약 1가지만 넣어도 되는지요?
    안된다면, a 카테고리 안에 하위 6개 문항이 있는데 이 6개를 각 특성으로 넣고 진행해도 되는지요?

    • Favicon of https://learnx.tistory.com BlogIcon Learn X BboL 2018.11.22 19:23 신고

      저는 여러 케이스를 예로 보여드리려고 3개로 한 것이고, 1개 하셔도 괜찮은 것으로 알고 있습니다.

+ 최근 게시물들