티스토리 뷰
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 개괄
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 실전 1
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 실전 2 ◁ 현재 포스팅
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 문답
오늘은 탐색적 요인분석 결과를 볼게요.
10개의 문항을 넣고 돌릴거고요,
Descriptives에서 Univariate descriptives, KMO and Bartlett's test of sphericity
Extraction에서 Maximum likelihood (옳은 방법) 또는 Principal components (옳지는 않지만 관행)
Rotation에서 Varimax (Promax를 추천하지만 쉽게 설명하기 위해)
Options에서 Sorted by size
default로 체크된 항목은 그대로 놔두고 추가로 체크한 항목들이예요.
그리고 Principal components 방법으로 돌렸어요. 많은 분들이 이 방법을 사용할테고, 쉽게 설명하기 위해.
저번 포스팅에서는 HR 관련 문항들을 넣었었는데, 결과가 다소 설명하기 애매하게 나와서 다른 문항들을 넣어봤어요.
자 OK를 눌러서 돌렸어요. 결과를 봐봅시다!
Descriptive Statistics & KMO and Bartlett's Test
descriptive statistics는 평균과 표준편차, 그리고 표본 수를 나타내주네요.
KMO값은 0.5만 넘으면 오케이고요, 0.8을 넘으면 굿이라고 할 수 있어요. 딱 .8이네요 ㅋㅋ
Bartlett's test는 유의하면 오케이예요.
Communalities & Total Variance Explained
다음 표는 communalities 와 explained variance에 관한 표네요. 아래 표(Total Variance Explained)를 먼저 볼게요.
먼저, 가장 왼쪽에 Initial Eigenvalues가 있죠? 우린 설정을 eigenvalue이 1이상인 요인만 추출하도록 했어요. 이 의미는 저번에 설명드렸죠? 따라서 이 기준에 따라 eigenvalue가 1이상인 3개의 요인이 추출되었어요. Total에 4.785, 1.553, 1.064가 eigenvalue예요.
그 다음 Extraction Sums of Squared Loadings은 추출된 분산의 비율이 나와요. 말이 어렵죠 ㅠ
쉽게 생각해봐요.
10개 문항(문항 10번이 짤렸네요;;)의 설명력을 전부 더하면 몇일까요? 1000%겠죠?
왜냐하면 자기 자신에 대한 설명력은 100%니깐요. 이해 되시나요?
이 1000% 중에 다른 문항들과 공유하는 분산을 이 분석에서 찾는거예요.
즉, 추출된 1번 요인이 1000% 중에 478.47%를 사용하고 있고, 2번 요인이 155.25%를 사용하고 있어요.
cumulative %를 보시면 요인 3번까지 총 74.015%를 사용한 걸 알 수 있어요.
사실 eigenvalue를 기준으로 요인을 추출하는건 이제는 최대한 기피하는 방법이예요.
하지만 아직도 관행처럼 하고 있더라고요.
기회가 되면 다음에 다른 방법을 이용해 요인 수를 결정하는 방법을 설명해볼게요.
그리고 위의 표는 communality에 대한 표예요.
위에서 얘기한 것 처럼, 각 문항의 자기 자신에 대한 설명력은 100%예요.
이 100%중에 요인 3개를 추출하기 위해서 설명력을 얼마만큼 사용했을까요?
이를 나타내는게 communality예요.
예를 들어, CSI1문항은 요인 3개를 추출하기 위해 79.4%만큼 사용한거예요.
Component Matrix
이 표는 흔히 얘기하는 요인적재량인데, 아직 회전하기 전 값이예요.
CSI1 문항을 봐보세요.
1번 요인에 .363
2번 요인에 .781
3번 요인에 .229
이 값들은 CSI1번 문항과 각 요인간의 상관관계라고 생각하시면 돼요.
즉, CSI1과 1번 요인간의 상관관계는 .363만큼인거죠.
자, 이 상관계수의 제곱값은 뭐죠? 설명력이죠?
.363제곱+.781제곱+.229제곱 = ?
몇이 나올까요? 계산기 두드려보세요.
communality와 같은 값이 나와요.
즉, .794가 나와요.
위에서 썼던 말을 다시 써볼게요.
"이 100%중에 요인 3개를 추출하기 위해서 설명력을 얼마만큼 사용했을까요?"
79.4% 만큼요! 이해가 가시나요?
참고로 communality가 0.4미만인 값은 보통 많이 제거하는데, 0.2 혹은 0.5 등 다른 기준을 잡기도 해요.
자 이번에는 세로로 봐볼게요.
저 값들을 각각 제곱해서 더해보세요.
그럼 뭐가 나오게요?
Boom!! 저 값이 나와요.
이제 위에서 얘기한,
"이 1000% 중에 다른 문항들과 공유하는 분산을 이 분석에서 찾는거예요. 즉, 추출된 1번 요인이 1000% 중에 478.5%를 사용하고 있고, ..."
이 말이 이해가 가시나요?
Rotate Component Matrix
이번에는 회전된 결과를 봐볼게요. 보통 위의 값을 논문에 리포팅해요.
탐색적 요인분석에서의 요인적재량은 보통 0.4를 기준으로 많이 봐요. 다른 기준도 있으니 0.4는 참고만 하세요.
결과는 깔끔하게 잘 나왔네요.
1번 요인은 문항 3, 4, 5, 6, 7
2번 요인은 문항 8, 9, 10
3번 요인은 문항 1, 2
이렇게 묶였네요.
(사실 3개 미만의 문항이 하나의 요인을 이루면 interpretability 문제가 있어요. 이 부분은 이 포스팅에서는 넘어갈게요.)
잘 안나온 예를 한 번 봐볼게요.
문제점이 보이시나요?
16번 문항을 봐보세요. 1번 요인에 .456, 2번 요인에 .602.
두 요인 모두에 높은 값이 나왔어요. 이 말은 16번 문항은 1번 요인과도 비슷하고 2번 요인과도 비슷하다는 의미예요.
이와 같은 결과를 cross loading이라고 하는데, 사람들이 가장 많이 무시하거나 모르고 지나치는 문제예요.
하지만 이 문제는 해결하시는게 옳아요.
탐색적 요인분석에서는 어떻게 요인적재량을 높이거나 낮출까요?
1. 불성실한 응답 제거
요인분석은 기본적으로 상관관계에 관한거예요.
따라서 7777777 혹은 111111 표기한 설문문항을 요인분석에 집어넣으면
요인간 변별력이 떨어지죠.
따라서 불성실한 응답은 미리미리 제거하세요.
2. 문항 제외
만약 문항이 충분히 많고, cross loading에 걸린 문항 혹은 적재량이 너무 낮은 문항 등이 중요하지 않은 문항이라면 제외하시면 돼요. 이 제외하는 과정도 상당히 힘들어요. 한 문항을 제외하면 다른 문항의 적재량이 낮아지거나 높아지기 때문에요. 따라서 넣었다가 뺐다가 다시 넣었다가 수십번, 아니 수백번 반복해야 할지도 몰라요.
3. 이 외에도 PCA 방법으로 돌리셨다면 ML 방법으로 돌려보시고,
Varimax 방법으로 회전했다면 Promax 방법으로 회전해보세요.
간단히 말씀드리면, Varimax는 요인간 상관관계를 0으로 강제로 만들어버려요.
만약 요인 간 상관관계가 0일리가 없다! 하시면 사실 Varimax는 옳지 않아요.
요인분석은 전에도 말씀드렸다시피, 쉽지 않은 통계 방법이예요.
분석은 그다지 어렵지 않지만, 그 속 뜻이 까다롭죠.
그리고 설명하지 않은 부분도 많아요.
예를 들어서 scree plot이라던가, 다른 방식의 회전이라던가...
scree plot은 책에도 쉽게 나와있을 것 같고, 그 외에는 너무 어려워질 것 같아서 설명하지 않았어요.
위의 방법은 기본적이고, 고전적인 현재는 비판을 많이 받는 EFA예요.
하지만 이제 대략 어떻게 해석하는지는 알 수 있을거라고 기대해요.
부디 도움이 됐기를 바라며, 만약 더 궁금하신거 있으면 댓글 주세요.
오늘도 열연구 하세요!
도움이 됐다면 커피 한 잔 사주시면 감사하겠습니다^^
'통계 이야기 > 탐색적요인분석(EFA)' 카테고리의 다른 글
탐색적 요인분석 문답 (0) | 2020.05.10 |
---|---|
탐색적 요인분석 실전 1 (2) | 2020.05.10 |
탐색적 요인분석 개괄 (0) | 2020.05.10 |
- amos
- 프로세스
- process macro
- probing
- Hayes
- 탐색적 요인분석
- SEM
- exploratory factor analysis
- close relationships
- R 기초
- 조절분석
- Mplus
- moderation
- MLM
- 부정적 평가 두려움 척도
- structural equation modeling
- 매개효과
- invariance test
- process
- multilevel
- mediation
- indirect effect
- rstudio
- EFA
- 구조방정식
- 논문통계
- social exclusion
- 간접효과
- 소속감
- 사회심리