statistics/심리통계학의 기초

분포

반찬이 2008. 7. 15. 08:55

분포

사람의 어떤 특성을 수량화시켰을 때, 전체 집단의 수를 낮은 값에서부터 높은 값까지 들어가 보면, 좌우대칭으로 만들 수 있다. 이를 토대로 검증/추정이 만들어졌다.

 

검증 vs 추정

모집단 전체를 가지고서 연구할 수가 없다. 가능하지가 않다. 그래서, 샘플을 가지고서 연구하는 것이다. 모집단을 토대로 샘플을 뽑는 것을 sampling. 연구를 한다는 것은 샘플에 처치를 해서 그 효과를 보는 것이다. 처치를 하면, 모양이 달라진다. 여기서 볼 것이 두 가지. 첫째는 처치를 했는데, 처치 효과가 있었는가? 없었는가? 둘째는 전집을 가지고서 처치하면 전집의 모양은 어떻게 달라질 것인가를 봐야한다.

그래서,

처치후

 

 (그림 생략) 

 

전집

표집

 

처치효과가 있는가 없는가는 전집과 전집을 서로 비교하는 것이지만, 이론적으로는 표집과 표집을 비교하는 것이다.

 

둘 다 모집단에 관한 정보를 얻기 위해 표본자료를 이용하는 유사한 과정들이지만, 각기 다른 질문을 묻도록 설계되었다.

검증은 처치를 했을 때, 처치 효과가 있었는지의 여부를 말해주는 것이고,

추정은 얼마나 많은 처치효과가 있었는지를 말해주는 것이다.

곧, 검증은 표본에 처치를 해서, 이 처치효과가 95%신뢰수준에서 과연 처치효과가 있었는가 없었는가를 보는 것이고, 추정은 sample의 평균을 가지고, population의 평균을 알아보는 것이다. X(bar)=90이면, μ = 90이다라고 반복적인 sampling으로 보는 것을 말한다. 그래서, sample에만 처치를 가했는데, 전집에다가 처치를 가했을 때, 전집은 어떠할 것인가를 보는 것이 추정이다. 그래서, 검증을 하든지 추정을 하든지 꼭 분포를 가지고서 이야기해야 한다. 좌우대칭이라는 근거를 가지고서 이야기하는 것이다.

sample의 통계치를 statistics라 하고, population의 수치를 parameter 인데, 이 모두가 분포를 바탕으로 이루어졌다. 그래서, 분포모양을 가지고 한 것이기에 모수적 검증, parametric tests라고 한다. z, t, F 모든 것이 모집단과 샘플과의 관련성을 가지고서 검증한 것이다. z, t, F 모든 것은 distribution 가정을 겪지 않으면 설명할 수 없다.

그런데, 이런 분포를 만들 수 없는 자료가 있다. 지금 여기에 남자들이 몇 명인가? 하는 것을 빈도로 알 수 있는데, 이걸 검증하고자 한다면, 분포로 그릴 수 없다. 작년과 비교해봐서 남자들이 늘었는가? 줄었는가?를 비율로만 볼 수 있는 것인데, 그것을 가지고서 검증해 봐라라고 한다면, 분포로 그릴 수 없다. 그걸 보고 non parametric test, 비모수적 검증이라고 한다.

비모수 검증을 하게 되는 경우는

1) 빈도를 가지고 설명할 경우

2) normal 상태로 분포를 유도하지 못할 경우 (분포를 그릴 수는 있는데, 정상분포가 되지 않는 경우) (normal) distribution - free tests 정상분포와 관련없는 검증이라는 뜻.

여기에 관련된 것이 χ2 이다. 적합도(test of goodness of fit).

적합도는

1) 서로 차이가 없다. 잘 들어맞는다를 본다. χ2 의 값이 높게 나오면 서로 잘 안 맞는다.

2) 두 변인간의 관련성을 본다.

소주를 좋아하는지, 맥주를 좋아하는지 두 집단간에 관련성이 있는가? 없는가?를 따진다. 관련성이 없다라고 할 때는 이걸 보고, 독립적이다라는 표현을 쓴다. 독립적인가? 아닌가? test of association, test of independence 로 본다.

χ2 가 높게 나오는 것은 독립적이다라는 말인데, 명명변인일 경우에 그렇고, 이는 상관을 보는 것과 같은데, 상관을 보는 것은 등간, 비율변인 이상일 때만 사용하는 말이다.

 

이와 유사한 것을 볼 때,

이 집단과 저 집단과 비슷한 조건의 사람들을 대상으로 연구를 하고 있는가?를 보는 것은 독립성 여부를 보는 것이 아니라 동질성 여부를 보고자 하는 것이다. 이 집단과 저 집단이 과연 같은가? 틀린가? 조건이 서로 다르지 않다라고 얘기하는 것은 동질성 여부라고 보는 것이다. 한 집단은 A영화를 많이 보고, 저 집단에서는 A영화를 많이 보지 않고 있을 때, 한 쪽이 그래서, 저 집단이 틀리다라고 할 때에는 동질성 검사로 표현한다.

점수 자체로는 등간 변인이지만, 숫자가 적절하지 않아 분포 모양이 적절하지 않으면 교정하면 되지만, 숫자가 부족할 때는 점수를 바꿀 수도 없는데, 그럴 때 사용하는 검증이 Wilcoxon, Kendall, Mann-Whitney, Kruskal-Wallis 검증등이 있다.