티스토리 뷰

반응형

[통계 이야기/SEM 기초 및 AMOS] - 구조방정식 적합도

[통계 이야기/SEM 기초 및 AMOS] - SEM 적합도 올리기 ◁ 현재 포스팅

[통계 이야기/SEM 기초 및 AMOS] - AVE 이해하기

[통계 이야기/SEM 기초 및 AMOS] - CR (Composite/Construct Reliability) 이해하기

 

오늘은 간단하게 적합도 올리는 방법에 대해서 알아볼게요.

 

이 전 글에서 적합도에 대해서 포스팅 했는데, 보시면 대부분의 적합도 값은 카이스퀘어와 자유도 값에 의해 계산되는걸 알 수 있어요. 즉, 적합도를 좌지우지 하는건 대부분 카이스퀘어와 자유도예요.

 

그런데 여기서 까다로운 점은, 결과 값으로 나오는 카이스퀘어와 자유도만을 이용하는게 아니예요.

Independence model 이라는게 있는데, 이 모델의 카이스퀘어와 자유도 값 또한 이용해요. Independence model은 쉽게 말해서 제안한 모형의 최악의 경우를 말해요. 모든 변수들끼리의 상관관계가 전혀 없을 경우의 모델인거죠.

 

적합도 수식을 고려하면,

1. Independence model 의 카이스퀘어 값을 올리면서,

2. 연구모형의 카이스퀘어 값을 내리고

3. 자유도를 높이면

CFI나 TLI와 같은 값들을 올릴 수 있어요. 하지만 자유도는 문항 수, 변수의 수에 따라 결정되기 때문에 변화시키기 까다로워요. 결국 카이스퀘어 싸움인거죠.

 

여기까지 이해 되시나요? 좀 어렵죠 ㅠ 실전으로 갈게요.

 

데이터 클리닝

만약 변수가 많다면, 먼저 아웃라이어(이상치) 혹은 불량 설문지를 제거해주세요. 만약 큰 아웃라이어가 있거나 많은 사람들이 불성실하게 응답을 했다면 이것만으로도 도움이 많이 될거예요. 하지만 일반적인 경우에는 아주 큰 도움은 되지 않아요. 그래도 이상적인 절차죠. 특히 777777777 이렇게 줄세운 설문지는 일찌감치 제거해주는게 좋아요. 적합도는 물론이고 요인분석에 해악이 되는 녀석들이죠.

 

생각해보세요. 요인분석은 잠재변수를 측정 문항들로 인해 측정이 되었는지 확인하는 거잖아요?

예를 들어서, '후회'라는 잠재변수를 측정하기 위해

"선택에 대해서 얼마나 후회하냐",

"선택한 것을 얼마나 되돌리고 싶냐"

등 여러가지 문항으로 물어보잖아요?

근데 설문지에는 이 문항 뿐만 아니라 "얼마나 만족했어?"

이런 reverse 문항도 있다고 생각해봐요. 근데 이걸 777777 줄세웠어요. 이러한 답변은 후회의 정도가 큰 경우와 만족이 큰 경우를 통계적으로 하나의 잠재 변수로 인식하게 만들어버려요.

 

어쨋든 이러한 절차는 요인분석에서 적재량을 높이는데 도움이 되고, 앞에서 말한 Independence model의 카이스퀘어 값을 올리는데 도움이 돼요.

이 과정은 TLI나 CFI와 같은 적합도를 올리는데 도움이 되지만 RMSEA와 같은 값에는 도움이 크게 되지는 않아요.

 

요인적재량 확인

그 다음은 확인적 요인분석에서 요인적재량이 낮은 문항을 제거하는 거예요. 물론 제거하는 문항이 반드시 필요한 문항이 아니고 제거해도 괜찮다는 판단이 선다면요. 

적재량이 낮은 문항을 제거하면 결과에 나오는 카이스퀘어 값을 많이 낮출 수 있어요.

만약 AVE 값을 통해서 타당도를 확인하신다면, 요인 적재량이 0.7보다 낮은 문항이 있으면 AVE 값을 맞추기가 힘들어져요. 나중을 위해서도 적재량이 낮은 문항은 제거하는게 좋죠.

물론 잘 생각하셔야 해요. 그냥 막 제거하시면 안돼고, 정말 필요한 문항인지, 왜 이 문항의 적재량이 낮은지 잘 생각하세요. 이 과정은 모든 적합도에 도움이 돼요.

 

추가 데이터 수집

그 다음, RMSEA값이 잘 안나오면, 데이터를 더 수집하는게 최고예요. RMSEA 계산 수식을 보면, 분모에 표본 수가 들어가요. 즉, 표본 수가 증가할수록 RMSEA값은 떨어지죠. 하지만 이 방법은 추천하지 않아요. 다소 비윤리적이고 p-hacking 이슈가 생겨서요.

 

모델 단순화

모델을 좀 단순하게 바꾸는 것도 생각해볼만 해요. 어떤 분야에서는 변수를 엄청 많이 집어넣고 그럴듯 하게 만들어서 분석하곤 해요. 저도 그랬었는데 참 부질없는 짓이예요.

물론 연구의 목적에 따라 Bamberg라는 분처럼 메타분석을 구조모형을 이용해서 한다던가 뭐.. 이런 경우에는 변수가 많아지겠죠. 하지만 *변수가 많고 복잡하다고 절대 좋은 연구가 아니예요*

 

수정지수

이도저도 안된다면... 수정지수를 이용해야 해요. 만약에 본인이 스스로 구조방정식을 잘 이해하고 있다고 생각하면 이 방법을 고려해보세요. 그렇지 않다면 수정지수를 잘 못 이해하고 있을 가능성이 높아요.  

그리고 많은 분들이 수정지수를 이용한 것을 밝히지 않아요. 수정지수를 이용할 경우 반드시 밝혀줘야 해요. 참고로 변수의 수와 측정문항의 개수만 알면 자유도를 계산할 수 있어요. 저는 의심이 많아서 다 계산해봐요. 자유도가 논문에 리포팅 된 값이랑 맞지 않는 경우가 허다해요. 이 말은 수정지수를 사용했는데 논문에 밝히지 않은거죠. 이 수정지수를 이용하면 말도 안되는 모형도 다 말되게 만들 수 있어요. 따라서 본인이 이 수정지수를 어떻게 사용하는지 알고, 그 로직을 논문에 설명할 수 있고, 논문에 투명하게 다 리포팅 할 계획이라면 추천해요. 그렇지 않다면 추천하지 않아요.

 

참고로 수정지수를 이용하는 방법은 카이스퀘어 값을 낮춰줘요. 그래서 적합도 값이 좋아지죠.

 

적합도라는게 참 구조방정식의 함정인 것 같아요. 그래서 개인적으로는 구조방정식 사용을 왠만하면 피하고 싶어요. 꼭 필요한 경우가 아니라면요.

 

어쨋든 모두 논문 화이팅 하세요!

 

 

도움이 됐다면 커피 한 잔 사주시면 감사하겠습니다^^

 

EPIK is 어려운 지식을 가능한 한 쉽게 공유하는 곳이예요 :)

Hey 👋 I just created a page here. You can now buy me a coffee!

www.buymeacoffee.com

 

반응형
댓글