티스토리 뷰

반응형

[통계 이야기/Multilevel model (다층 모형)] - Multilevel Modeling (다층 모델링)이 뭐임? ◁ 현재 포스팅

[통계 이야기/Multilevel model (다층 모형)] - 언제 multilevel modeling (다층 모델링)을 해야할까?

[통계 이야기/Multilevel model (다층 모형)] - Random? Fixed? Effects

 

Multilvel modeling (MLM)에 대한 한국어 자료가 별로 없는 것 같아서 제가 한 번 쉽게 소개해볼까 해요.

 

MLM은 상당히 중요한 분석 방법이예요. 중요한 만큼 현재 아주 활발히 연구되고 있는 분야 중 하나이고요.

이게 뭐길래 이렇게 많이 연구하고 있을까요?

먼저 Hierarchical linear modeling (HLM, 위계적 선형 모형)

Linear mixed modeling (선형 혼합 모형)

Random coefficient modeling (랜덤/확률/무선 계수 모형)

Variance component modeling (분산 성분 모형?)

전부 한통속이라고 생각하시면 돼요. 한글로는 번역이 여러 개로 되다 보니 더 헷갈리게 느껴지네요.

왜 다층 모형이 필요한가?

기본적으로 우리가 흔히 사용하는, 예를 들어 ANOVA 등의 단층(?) 통계 분석 접근법은 한 가지 중요한 가정이 있어요.

The assumption of independence

독립성 가정이라고 하나요?

만약 한 사람이 두 번 같은 실험에 참여했어요. 이러면 독립성 가정에 어긋나겠죠. 만약 두 그룹을 비교하는데 그 두 그룹에 같은 사람이 속해있다면 안되겠죠?

그리고 한 그룹 안에서도 마찬가지예요. 만약 예를 들어, 한 그룹의 식습관을 하루에 한 번씩 관찰했어요. 여러 개의 식습관과 관련된 변수들이 있을거예요. 그리고 같은 변수가 날짜에 따라서 여러 번 측정 되었을거예요. 그럼 이 변수들의 값은 서로 독립이 아니겠죠? 즉, 같은 변수들을 여러 번 반복 측정했으므로 독립성 가정에 또 어긋나요.

이런 데이터를 가지고 ANOVA나 일반 regression 같은 분석을 하게되면 표본오차가 적게 추정되고, type 1 에러가 발생할 확률이 올라가요. 즉, 쉽게 말하면 잘못된 결론을 내릴 확률이 올라가요.

언제 다층 모형을 쓰지?

자, 따라서 우리는 정말 MLM이 필요한가? 를 잘 구분할 수 있어야 해요.

1. 데이터가 interdependent 한가?

2. Clusters가 있는가?

 

예를 들어서, 한 명의 의사 당 10명의 암 환자의 예후에 대한 데이터를 요청했어요. 그 결과 총 20명의 의사의 동의 하에 200명의 암 환자 예후에 대한 데이터를 받았어요.

 

데이터가 interdependent 한가요?

그렇죠. 각 10명의 환자들은 1명의 의사에 의해 치료를 받았아요. 따라서 10명의 환자에 대한 데이터는 서로 interdependent 할거예요.

Cluster가 있나요?

네. 여기서는 의사 개개인이 cluster가 되겠죠. 의사 1명당 10명의 환자라는 꼬리가 달려있는 모양이예요.

 

따라서 이런 경우는 MLM 방법을 사용해야 해요.

문제를 내볼게요.

다음 중 MLM을 사용해야 하는 경우는요? 다중 응답 가능해요.

1. 한 명의 면접관이 100명에 대한 warmth 와 competence를 평가했어요.

2. 30명의 심리 상담가를 통해 300명의 심리 상태에 대한 데이터를 수집했어요.

3. 100명의 참가자가 하루에 한 번씩 한 달 동안 본인의 기분을 기록했어요.

4. 문화 차이를 보기 위해, 3개의 다른 문화에서 온 500명을 통해 데이터를 수집했어요.

5. 500명의 참가자가 각자 10개의 시나리오를 읽고 각 시나리오의 주인공이 얼마나 후회했을 것 같은지 평가했어요.

정답은 나중에.

위에서는 제가 독립성 가정을 들먹이면서 통계적인 부분을 말했잖아요? 좀 더 개념적인 부분에서도 기존의 통계에서는 한계가 있어요.

이게 무슨 뜻이냐면, 위의 의사와 환자에 대한 이야기를 다시 생각해보세요. 의사 라는 cluster를 생각하지 않고 전부 합쳐서 200개의 데이터를 분석했더니 환자들을 보는 시간이 길어질수록 예후가 좋아진다는 결과가 나왔어요. 하지만 어떤 A라는 한 의사만 떼어놓고 10개의 데이터만 분석해보니 환자들을 보는 시간이 길어질수록 예후가 오히려 나빠졌어요.

수치로 생각해보면 환자를 보는 시간이 5분일 때 종속변수(예후) 값 평균이 10, 그리고 시간이 10분일 때 종속변수 값 평균이 5라고 쳐요.

또 다른 B라는 의사만 떼어놓고 봤어요. 역시나 의사 A와 같은 결과가 나왔고, 데이터는 환자를 보는 시간이 20분일 때 종속변수 값 평균이 20, 그리고 시간이 30분일 때 종속변수 값 평균이 15이예요.

이 두 의사 각각의 데이터는 시간과 종속변수간에 부정적인 관계가 있는 반면에 위 데이터를 합치면 놀랍게도 시간과 종속변수간에 긍정적인 관계가 보이게 돼요.

 

저 데이터를 한 번 빈 종이에 x축과 y축을 그려서 점을 찍어보세요. 각 의사를 따로 놓고 두 점을 각각 이으면 우하향 하는 두 개의 선이 나오지만 네 점을 놓고 그 사이를 통과하는 회귀선을 그려보면 우상향하는 그래프가 나올거예요.

 

이처럼 MLM은 상위 그룹(cluster)을 고려하지 않으면 데이터의 성향에 따라결과를 180도 바꾸기도 해요.

자, 그럼 정답을 살펴볼까요?

1번은 cluster 가 없죠?

2번은 한 상담가에 속해 있는 환자들의 심리 상태는 서로 interdependent 할 거예요. 같은 상담가에게 상담을 받았잖아요. 그리고 심리 상담가 라는 cluster가 있고요.

3번은 각 개인이 기록한 데이터는 서로 interdependent 할 것이고, 따라서 참가자가 cluster가 되겠죠.

4번은 문화라는 cluster가 있지만 데이터는 interdependent하지 않아요.

5번은 개인에 따라서 후회 평가의 레벨이 interdependent 할 것이며, 각 시나리오에 대한 평가도 interdependent 할 거예요. 따라서 clusters는 참가자와 시나리오가 되겠죠. 만약 같은 변수를 여러 번 반복 측정 하잖아요? 그럼 MLM이 필요하구나 생각하시면 돼요.

정답은 2, 3, 5번이예요.

너무 글로만 설명한 것 같네요. 그래도 MLM을 이해하는데 도움이 되었기를 바라면서...

열공하세요!

 

 

도움이 됐다면 커피 한 잔 사주시면 감사하겠습니다^^

 

EPIK is 어려운 지식을 가능한 한 쉽게 공유하는 곳이예요 :)

Hey 👋 I just created a page here. You can now buy me a coffee!

www.buymeacoffee.com

 

반응형
댓글