티스토리 뷰
이번에는 탐색적 요인분석에 대해서 간략하게 알아볼거예요.
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 개괄 ◁ 현재 포스팅
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 실전 1
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 실전 2
[통계 이야기/탐색적요인분석(EFA)] - 탐색적 요인분석 문답
설명에 들어가기 전에, 요인분석은 흔히 사용하지만 사실 상당히 어렵다고도 볼 수 있는 통계 방법이예요. 그래서 그런지 잘 못 사용하고 있는 경우가 태반이예요. 물론 제가 100% 확실히 알고 있는건 아니지만, 제가 확실하게 아는 한도내에서도 많이 틀리고 설명하기 까다로운 부분들도 많아요. 이 점 감안하시고, 비판이 많을 수 있으니 부디 감내해주시기를 바랄게요.
요인분석에는 크게 확인적 요인분석과 탐색적 요인분석이 있어요.
둘 중에 둘 다 분석할건지, 아니면 어느 하나만을 분석할건지 먼저 결정해야해요.
탐색적 요인분석 vs. 확인적 요인분석--어떻게 결정할까?
요인분석의 주요 목적은 자료의 축소와 측정문항 혹은 변수 간의 공통성을 찾아내서 자료를 요약하는 거예요.
요인분석은 기본적으로 분산을 이용하는 거예요. 흔히 말하는 설명력 있잖아요? r제곱 이라고도 하죠? 이 r제곱 혹은 설명력을 공통된 분산이라고 생각하시면 돼요. 여기서 r은 상관계수인거 아시죠? 따라서 요인분석은 본질적으로 상관관계를 근간으로 해요. 다시 말하면, 요인분석은 측정 문항들의 분산을 이용하는 방법이고, 쉽게 말하면 측정 문항들간의 상관관계를 이용하는 방법이예요.
여기서 탐색적 요인분석은 문자 그대로 탐색적으로 요인분석을 하는거예요.
예를 들어서, A라는 변수를 측정하기 위한 측정 문항들을 기존의 연구에서 발췌하였으며, 아주 흔하게 쓰이는 문항들이예요. 그렇다면 '탐색적'으로 요인분석을 할 필요가 없겠죠? 흔하게 쓰인다는 의미는 선행 연구에서 그 타당성과 신뢰성이 증명되었다는 의미니깐요. 물론 이러한 문항들의 타당성과 신뢰성이 의심된다면 탐색적인 요인분석을 다시 해 봐야겠죠. 이럴 경우 연구의 목적이 확 달라져요. "A변수의 측정문항 비판 및 새로운 문항 개발"과 같이요. 그래서 탐색적 요인분석이 '주로' 쓰이는 연구는 문항 개발하는 연구에서 많이 쓰여요.
확인적 요인분석은 역시 문자 그대로 확인적으로 요인분석을 하는거예요. '기존 연구에서 확인이 되었으니 본 연구에서는 확인적으로 요인분석을 한번 더 해보겠다'는 거죠. 구별이 되시나요?
많은 연구에서 왠만하면 탐색적 요인분석을 쓰는 경향이 있어요. 엄밀히 말하면 틀린 건 아니라고 생각해요. 더 엄밀한 연구가 되겠죠. 하지만 이는 통계에 너무 의존하는 연구가 된다고 생각해요. 생각 해보세요. 요인적재량이 안나오면 문항을 삭제하고 그러잖아요? 근데 그 문항이 해당 변수에 매우 중요한 문항이라면요? 데이터 수집 과정에서 오류가 생겨서 적재량이 낮게 나왔다면요? 그럼 이런 요인분석을 통해 나온 결과를 신뢰할 수 있을까요?
측정 문항을 개발하거나 탐색적 요인분석의 취지에 맞는 연구를 제외하고는 탐색적 요인분석 사용은 자제해야 한다고 생각해요. 왜냐하면 요인분석 자체가 데이터 손실이 있고, 통계적으로 너무 의존하는 경향이 생기는 등 모든 연구에서 반드시 필요한 분석이 아니라고 생각해요.
그럼 요인분석을 안하고 어떻게 측정 문항을 변수로 묶냐고요? 선행 연구와 신뢰도 분석을 근거로 하면 충분하다고 생각해요. 그리고 아주 당연하고 명백한 측정 문항들을 사용하는 것도 방법이고요. 후회라는 변수를 이용한다고 생각해보세요. 대충 "얼마나 후회하셨나요?" "얼마나 선택을 되돌리고 싶나요?" 이렇게 나눠서 해도 되겠죠? 그냥 "얼마나 후회하셨나요?"라고 물어보면 더 명백한 것 같아요. 하지만 유의할 점은 만약 선택지가 7점 척도라던가 그러면 등간 척도가 아닌 서열 척도로 봐야할 수도 있어요.
사설이 길었네요. 자 그럼 탐색적 요인분석을 선택했다고 칠게요.
데이터는 얼마나 필요할까?
샘플의 수는 최소 100개 이상이 되는게 좋아요. 보통 측정 문항당 10개의 데이터면 오케이 해요. 예를 들어, 20개의 문항을 이용해서 요인분석을 한다면 200개의 데이터가 필요한거죠. 어떤 학자들은 측정 문항당 20개의 데이터를 요구하기도 해요.
자, 이제 또 하나 결정해야 해요.
component analysis 를 사용 할 것인가 common factor analysis 를 사용 할 것인가?!
이걸 결정하기 이전에, 먼저 분산의 종류에 대한 이해가 필요해요.
분산의 종류는 크게 세 가지로 나눌 수 있어요. common/specific/error variance.
common variance는 음.. 공통 분산이라고 하면 될라나요? 이는 말 그대로 문항들 간 혹은 변수들 간 공유하고 있는 분산을 말해요. 쉽게 말해 상관관계를 의미해요.
specific variance는 unique variance라고 하기도 하고요, 자세히 설명하면 말이 길어지니, error variance와 함께 설명하자면, specific variance와 error variance는 상관관계로 설명이 안되는 부분이예요. 쉽게 말해, 공유하고 있는 부분을 제외한 나머지 부분이라고 생각하시면 돼요.
자, 다시 돌아가서, (principal) component analysis (이하 CA)는 저 세 가지 분산을 모두 고려한 분석이고요,
common factor analysis(이하 CF)는 common variance만을 고려한 분석이예요.
결론부터 말하면, CA의 목적은 데이터 축소에 있고요, CF의 목적은 잠재된 변수를 찾는거예요.
CF를 먼저 생각해볼게요. CF는 앞서 말한바와 같이, common variance만을 고려해요.
즉, 공통된 부분만 고려하겠다 이거예요. 왜요? 공통된 부분이 아닌 부분은 뭔지 모르잖아요.
예를 들어, 후회를 측정할 때, "얼마나 후회되시나요?", "얼마나 선택을 되돌리고 싶으신가요?"라고 물어봤다고 쳐요.
후회로서 공통된 부분이 있겠죠? 하지만 그 나머지는요?
만약 응답자가 그닥 후회되지는 않은데 부끄러움 때문에 선택은 되돌리고 싶긴해 라고 생각한다면요?
어떠한 error가 있다던가, 두 질문에 뭔가 모를 차이가 있다면요? common variance를 제외한 나머지를 파악하기는 굉장히 힘들어요. 따라서 공통된 부분만을 고려해서 잠재된 변수를 찾는거예요.
CA는 전부 다 고려하잖아요? 그럼 error variance건 뭐건 다 포함하는거예요. 이 분석은 보통 common variance를 제외한 분산이 상당히 적다고 충분히 말할 수 있을 때, CF를 대신해 사용할 수 있을거예요. 하지만 이러한 분산이 적다고 자신있게 말할 수 있는 경우는 드물어요.
주로 탐색적 요인분석을 왜 사용하세요? 측정 문항간에 잠재되어 있는 변수를 찾기 위해 사용하지 않나요?
그렇다면 common factor analysis(CF)를 사용해야 해요. 하지만 제가 본 90%의 논문은 component analysis(CA)를 사용했어요. 제 의견으로는 이건 잘못됐다고 봐요. 하지만 왜 사람들이 왜 component analysis를 고집하는 걸까요? 먼저, 전통을 그냥 답습하고 있는 경우가 태반인 것 같고요, 둘째, spss상에서 기본 옵션이 component analysis로 되어 있어요. 그래서 그냥 사용하는게 아닌가 싶어요.
다음 포스팅에서는 스샷과 함께 직접 EFA를 같이 해봐요!
도움이 됐다면 커피 한 잔 사주시면 감사하겠습니다^^
EPIK is 어려운 지식을 가능한 한 쉽게 공유하는 곳이예요 :)
Hey 👋 I just created a page here. You can now buy me a coffee!
www.buymeacoffee.com
'통계 이야기 > 탐색적요인분석(EFA)' 카테고리의 다른 글
탐색적 요인분석 문답 (0) | 2020.05.10 |
---|---|
탐색적 요인분석 실전 2 (0) | 2020.05.10 |
탐색적 요인분석 실전 1 (2) | 2020.05.10 |
- process macro
- 탐색적 요인분석
- 프로세스
- exploratory factor analysis
- 매개효과
- mediation
- Mplus
- R 기초
- structural equation modeling
- 사회심리
- multilevel
- 간접효과
- Hayes
- 조절분석
- MLM
- probing
- 소속감
- moderation
- 구조방정식
- EFA
- rstudio
- invariance test
- social exclusion
- amos
- indirect effect
- SEM
- 논문통계
- 부정적 평가 두려움 척도
- process
- close relationships