티스토리 뷰

반응형

안녕하세요!

당분간 구조방정식에 대해서 차근차근 포스팅하고, 그 이후 AMOS를 이용해서 어떻게 구조방정식을 분석하는지 살펴보려고 해요. 

 

SEM이 뭘까요?

Structural Equation Modeling 의 약자이고, 쉽게 말하면 관찰된 변수 + 잠재된 변수들 간의 복잡한 관계를 조사할 수 있게 하는 일련의 분석 과정이라고 생각하면 되요.

What??

"관찰된"은 말 그대로, 설문조사, 실험 등을 통해 얻은 값이예요.

"잠재된"은 이러한 관찰된 값들을 통해서 추론하는 값이예요.

예를 들어, 어느 식당에서 기분 좋게 밥을 먹었어요. "기분 좋게 밥을 먹었다"는 것을 어떻게 추론할 수 있을까요?

맛, 서비스, 가격, 위치, 양, ... 많은 요소들을 통해 추론해 볼 수 있어요. 따라서 연구자들은 맛, 서비스, 가격, .. 등을 조사하고(관찰된 변수),  관찰된 값을 통해서 잠재된 변수를 추론할 수 있어요. 이렇게 여러 관찰된, 잠재된 변수들간의 관계를 조사할 수 있게 하는게 SEM이예요.조금 더 나아가, SEM은 우리가 모은 데이터가 우리가 예상하는 모델이 맞는지 알아보는 거예요. 모델 핏이 안맞는다? 그 말은 데이터와 예상한 모델이 맞지 않는다는걸 뜻해요.

 

그럼 왜 그냥 회귀분석을 사용하지 않고 SEM을 사용할까요? 

가장 큰 장점은 measurement errors를 고려한다는 점이예요. 잠재변수 없이 그냥 측정 변수만을 가지고 분석하는 경우를 생각해보세요. 요인분석이나 신뢰도 분석을 한 후, 평균 값을 이용해서 여러 문항을 하나의 변수로 합치고, 그 값을 이용해서 분석을 하는 경우가 많죠? 이 과정은 우리가 측정을 한 모든 값에는 에러가 없다는 가정하에 측정된 값을 전부 이용하는 거예요. 만약 설문조사를 통해 얻은 값에 오류가 있을 것이다라는 가정을 한다면, 우린 그 문항들을 이용해서 분석을 할 수가 없어요. 오류가 있는 문항을 가지고 어떻게 변수를 만들고 분석을 하겠어요? 

그런데 잠재 변수를 이용하는 SEM의 경우에는 이 측정할 때 발생할 수 있는 오류를 고려해요. 아래 모델을 잠깐 볼까요?

여기서 A1-3, B1-3, 그리고 DV는 직접 측정한 값들이예요. 즉, 설문 조사를 했다면 설문지에 들어있던 문항들인거죠.

F1과 F2는 잠재변수예요. 아무 값도 없는 가상의 변수예요.

e1-6도 있죠? 얘네가 measurement errors 예요. 이게 SEM의 가장 큰 장점이예요.  

 

RAM notation

SEM은 그래픽으로 많이 표현하는데요, SEM에는 SEM만의 기호 언어(symbolic language)가 있어요. RAM (Reticular Action Model) notation 이 대표적이예요.

네모--관찰된 변수

동그라미--잠재된 변수/오차

일방향 화살표--경로 계수/회귀 계수/요인 계수

곧은 양방향 화살표--(Sling)상관관계

꺽인 양방향 화살표--분산

기본적으로 이렇게 있어요. 참 쉽죠? 아하하하하

 

Data screening

이 부분은 자세히는 설명하지 않을게요. 이 부분은 모든 데이터를 다룸에 있어서 반드시 선행되어야 하기 때문에

SEM에 국한되지 않잖아요.

그래도 SEM에서 특히 확인해봐야 할 부분은 다음과 같아요.

아시다시피 거의 모든 통계 분석에는 가정이 있어요. SEM의 기본 가정 중 하나는 multivariate normality이예요.

다변량 정규분포 라네요. (좀 더 어렵게 들어가면, maximum likelihood 라는 방법을 쓸 때의 가정이예요.) 변수 하나의 정규분포는 univariate normality예요. Multivariate 이란 단어를 보면 "multi" 가 들어가 있잖아요? 즉, 여러 변수들의 정규분포인 거예요. 이 multivariate normality가 성립하기 위해서는 개별 변수들의 분포가 normal 하고, 각 변수가 다른 변수의 값에 정규분포 하고(bivariate normality), 모든 bivariate 값이 homoscedastic residuals에 선형 분포해야 하는데......... 우린 통계학과가 아니므로 패스.

 

Multivariate normality를 검증하는 통계를 걍 돌려보세요. 대표적인게 Mardia's test예요.

그리고 outliers. Outliers도 univariate이 아닌 multivariate 으로 봐야해요. 역시나 이미 발표된 방법을 이용해 돌려보세요. 주로 Mahalanobis distance 를 구해서 살펴보곤 해요.

마지막으로 missing data. Missing data 를 어떻게 처리하시나요? 보통 mean 값으로 많이 바꿔 넣으시나요? 이 방법은 좋지 않다고 소문났어요. 지금은 이 missing data가 완전 무작위로 missing인가, 다른 변수에 의해 missing이 발생했는가 등 missing이 발생한 이유에 따라 다르게 접근하는 방법을 주로 사용해요. 겁나 어렵게 만들어놨죠. 이 부분만 해도 포스팅 몇 개가 나오겠네요.

SEM 관련 부분만 간단히 소개하자면, AMOS를 쓰시는 분들은 분석탭에서 "Estimate means and intercepts"에 체크하시면 돼요. Mplus를 쓰시는 분들은 그냥 missing data를 밝혀주시거나 (Missing = var (value)) AUXILIARY 옵션을 사용하시면 돼요.

 

SEM 혹은 데이터 분석에 익숙하지 않으신 분들은 여기까지도 힘드실꺼예요. 그래서 그런지 종종 이 과정을 무시하거나,

오류가 많지만 쉬운 방법으로 하거나, 대충 넘기시는 분들 많아요. 하지만 처음 이 data screening을 어떻게 하냐에 따라 결과가 달라질 수 있다는 사실!

한 번에 SEM으로 훅 들어가지 마시고, 기본을 거치고 들어가시기를 추천드려요.

특정 부분에 대한 더 자세한 설명이 필요하다면 댓글 남겨주세요!

열연구!

 

 

도움이 됐다면 커피 한 잔 사주시면 감사하겠습니다^^

 

EPIK is 어려운 지식을 가능한 한 쉽게 공유하는 곳이예요 :)

Hey 👋 I just created a page here. You can now buy me a coffee!

www.buymeacoffee.com

 

반응형

'통계 이야기 > SEM 기초 및 Amos' 카테고리의 다른 글

SEM 적합도 올리기  (0) 2020.05.18
구조방정식 적합도  (0) 2020.05.18
구조방정식(SEM) 이론 기초 4  (0) 2020.05.18
구조방정식(SEM) 이론 기초 3  (2) 2020.05.18
구조방정식(SEM) 이론 기초 2  (1) 2020.05.17
댓글