티스토리 뷰

반응형

[통계 이야기/Multilevel model (다층 모형)] - Multilevel Modeling (다층 모델링)이 뭐임?

[통계 이야기/Multilevel model (다층 모형)] - 언제 multilevel modeling (다층 모델링)을 해야할까? ◁ 현재 포스팅

[통계 이야기/Multilevel model (다층 모형)] - Random? Fixed? Effects

[통계 이야기/Mplus를 이용해보자] - Mplus에서 ICC 계산하기

 

이전 포스팅을 통해 다층 모형의 개념 및 어떤 데이터가 다층 구조인지 이해가 잘 되었으면 좋겠네요.

 

ICC란?

이번 포스팅에서는 좀 더 통계적으로 언제 MLM을 사용해야 하는지 볼게요.

가장 많이 사용하는 방법이 Intraclass correlation (ICC)를 테스트 하는거예요. 쉽게 말해 interdependence를 테스트하는 건데, 얼마나 많은 분산이 clusters에 의해 설명되는가 혹은 Clusters가 종속 변수인 하층 변수의 평균에 얼마나 영향을 주는가에 따라서 ICC가 달라져요.

예를 들어서, 여러 학교를 통해 학생들의 시험 점수를 수집했어요. 그러면 학교가 cluster가 되고, level 2 변수라고 볼 수 있어요.

(만약 학교 위에 다른 cluster가 학교를 구성한다면 그 상위 변수는 level 3 변수 혹은 level 3에 있다고 표현해요. 예를 들어서 서울 관악구, 양천구, 등등 각 구 의 학교에 다니는 시험 점수를 수집했다면 지역이 level 3 학교가 level 2 시험점수가 level 1 이렇게 돼요.)

학교가 level 2 에 있고, 시험점수가 level 1이겠죠?

ICC는 학교라는 cluster 혹은 그룹이 시험점수의 분산을 얼마나 설명하는가에 달려있어요.

ICC가 0에 근접할수록, level 1 변수는 cluster 변수와 독립적이다. 

라고 말할 수 있어요.

전 포스팅에서, MLM을 결정하는 중요한 요소 중 하나가 interdependence 였죠? 왜냐하면 interdependence는 단층 분석방법(e.g., OLS regression)의 가정인 독립성 가정에 위배되기 때문이였어요.

따라서 비록 cluster가 있어도 cluster와 level 1 변수가 독립적이라면 궂이 MLM을 할 필요가 없어져요. 독립성 가정을 충족하니까요.

(BUT! 항상 그런건 아니예요. 비록 ICC가 낮아도 MLM을 이용해도 되고, 그래야 하는 경우도 있어요. 일반적으로 책에는 ICC가 유의하지 않으면 MLM을 사용하지 않아도 된다 라고 하는데 데이터 구조가 개념적으로 cluster를 포함하면 ICC가 낮아도 MLM을 사용해야 한다는 학자들도 있어요. ".05 레벨에서 유의하지 않으면 정말 관계가 없다고 말할 수 있냐?" 와 비슷한 문제도 있고 구조가 복잡한 경우에도 문제가 있고요,  ICC가 아닌 design effect (= 1 + {cluster size - 1}*ICC)를 봐야한다는 주장도 있고요. 결론적으로는 ICC가 높으면 MLM을 사용해야 하고, 낮으면 MLM을 사용해도 되고 안해도 된다 정도로만 아시면 될 것 같아요.)

ICC 계산하는 방법

ICC 계산은 어떻게 할까요? ICC 를 계산하는 방법은 여러가지가 있어요. ANOVA를 이용할 수도 있고, MLM을 통해 null model 에서 ICC를 구할 수도 있고, full model 에서도 ICC를 구할 수 있어요. 우리가 가장 필요하고 기본적인건 null model 에서의 ICC예요.

 

그럼 null model은 뭘까요?

null model은 empty model 이라고도 하고, unconditional (means) model 이라고 부르기도 해요. 이 모델은 어떠한 독립변수도 없이 오로지 상수항만 있는거예요.

단순 회귀식을 생각해보세요.

Y = b0+ b1x + e

x라는 독립변수가 들어가있죠?

null model은 상수항만 있는, y = b0 + e 인거예요.

더 정확히는 MLM의 level 1 과 level 2의 방정식을 이해해야 해요.

Level 1 은 Yij = b0j + eij

Level 2 는 b0j = M + u0j

위의 예(여러 학교에서 학생들의 시험 성적 수집)를 이용해볼게요.

i = 각 학생

j = 각 학교

Yij = j 학교에서 i 학생의 시험 성적

b0j = j 학교의 시험 성적 평균

eij = 랜덤 에러 (j 학교에서 안에서, i 학생의 시험 성적과 j 학교 전체 시험 성적 평균의 차이)

M = 전체 학교 평균

u0j = j 학교와 관련된 랜덤 효과 (전체 학교 성적 평균 - j 학교 성적 평균)

여기까지 이해가 되시나요? 

우리가 ICC 계산을 위해 필요한 건,

전체의 eij, 즉 한 학교내에서의 전체 분산(within-group variance, 편의상 "내분산"이라고 할게요.)

그리고 전체의 b0j, 즉 학교간의 전체 분산(between-group variance, "간분산"이라고 할게요.)

이 필요해요.

ICC는 보통 ρ (rho, 로 라고 발음)라고 표기하고요,

ρ = 간분산/(간분산+내분산=총분산)

이렇게 계산하면 돼요.

ICC는 0~1 사이의 값을 갖고, 딱히 몇 이상일 경우 MLM 을 사용해야 한다 그런 정해진 룰은 없어요. .10 이상이면 MLM을 사용해야 할 만큼 interdependence가 높다 라는 연구는 봤었어요.

 

만약 ICC가 .31 이라고 한다면, 시험 성적의 전체 분산 중 31%가 학교에 의해 설명된다고 말해면 돼요. 따라서 "학교"라는 cluster를 통계 분석 시 고려해야 할 정도로 "학교"가 성적이 미치는 영향이 크죠? 따라서 MLM을 사용해야 해요.

SPSS에서 ICC값 계산

SPSS에서는 ICC값을 계산하기 위해서는 Analyze -> Mixed Models -> Linear 로 들어가신 후 Subject 에 cluster 변수를 넣으세요. Continue 를 누르시고, Dependent Variable에 level 1 변수를 넣으세요.

그리고 오른쪽에 Random 탭에 들어가시면 하단 왼편에 cluster 변수가 보일꺼예요. 그걸 우측으로 옮겨주시고, Include intercept 에 체크를 해주세요. 그리고 continue 를 누르셔서 나오신 후,

Statistics 탭에 들어가셔서 Parameter estimates 와 Tests for covariance parameters 체크해주세요. 그리고 돌려주세요.

결과창에서는 random effects를 보셔야 해요. Estimates of Covariance Parameters 라는 표가 있을꺼예요.

거기서 residual의 estimate에 있는 값이 within variance (전 포스팅에서 내분산),

Intercept variance 의 estimate에 있는 값이 between variance (간분산) 

이 두 값을 이용해서 ICC값을 계산하시면 돼요.

 

ICC에 대해서 전반적으로 이해가 됐기를 바래요!

 

 

​도움이 됐다면 커피 한 잔 사주시면 감사하겠습니다^^

 

EPIK is 어려운 지식을 가능한 한 쉽게 공유하는 곳이예요 :)

Hey 👋 I just created a page here. You can now buy me a coffee!

www.buymeacoffee.com

 

반응형
댓글