statistics/심리통계학의 기초

평균, 표준편차, 정규분포, 표준오차의 개념

반찬이 2016. 1. 19. 21:15

어떤 변인을 측정하고자 모집단이나 표본을 대상으로 그 분포들을 모았을 때 봉우리는 하나이고, 가운데를 중심으로 서로 좌우대칭을 이루는 정규분포가 이루어진다. 대상자들의 숫자가 많으면 많을수록 그 분포는 양쪽은 점점 줄어들고 봉우리 부분은 높아져 흔히 평균은 0이고 표준편차는 1인 형태로 나타난다. 예를 들어, 한국어교육학 연구방법론 시험을 보는 사람이 1000명이라고 하였을 때, 이들의 시험 점수를 분포로 나타내 보면 가운데로 몰리고 양쪽 끝은 줄어드는 좌우대칭을 이루게 된다. 이때 가운데에 있는 점수대가 평균이며, 정상분포였을 경우 중앙치와 평균, 최빈치(가장 큰 빈도)는 중앙에 위치하여 같게 된다. 표준편차는 표집한 표본들의 분포를 보았을 때, 개별 측정치의 점수가 평균치로부터 얼마나 떨어져 있는지에 대한 정보를 제공하는 것으로 각 표본(sample)들이 평균으로부터 얼마나 떨어져 있는지에 대한 정도를 말한다. 표준편차는 각 개별 측정치가 평균치로부터 떨어진 정도를 편차라고 하고, 그 편차를 제곱(제곱하지 않고 합하면 언제나 ‘0’이 되므로)해 합한 후 사례수로 나누면 평균이 구해지는데, 이것을 변량이라고 한다. 그리고 이 변량을 제곱근(root를 씌우면)하면 바로 표준편차가 된다. 이는 편차들의 평균값을 의미한다. 다시 말해, 표준편차는 평균으로부터 얼마만큼 떨어져 있는가에 대한 정보를 제공하는 것으로, 평균으로부터의 표준간격을 의미한다. 
 
모집단을 대상으로 정보를 얻을 수는 없기 때문에 항상 모집단으로부터 자료들을 표집하여 표본의 분포를 통해 모집단의 정보를 추론하게 된다. 이렇게 표집된 표본집단의 평균과 모집단의 평균 사이에는 표집오차(=sampling error)가 발생할 수 있다. 그러나, 모집단의 평균을 알 수 없으므로, 이 표집오차는 추정밖에 할 수 없고, 또한 이렇게 표집한 표본집단이 얼마나 모집단을 잘 대표하는지를 알기 위해서 표준오차의 개념을 사용하는 것이다. 표준오차를 구하기 위해서는 일단 모집단이 정상분포를 이루고 있다는 가정하에 모집단의 평균과 가까워지기 위해 여러 번의 sampling을 통해 각 표본집단의 평균들로 이루어진 표본평균분포(distribution of sample means: sample 평균들의 분포)를 얻는다. 이 분포의 표준편차가 바로 표준오차가 된다. 즉, 모평균과 표본평균 사이에 평균적으로 얼마나 많은 오차가 있는지 알려주며, 이 표준오차가 적을수록 표본집단은 그만큼 모집단을 잘 대표하는 것으로 여겨진다. 그리고 표준오차는 모집단의 표준편차가 클수록 커지고 사례수가 많아질수록 적어진다.

정리하자면,
표준편차는 모집단의 평균과 모집단 각각 사례치들 사이의 표준간격이다. 즉, 모집단 평균과 자료들간의 평균거리라고 할 수 있다. 표준편차는 사례치들이 얼마나 퍼져 있는지의 변산도를 나타내준다.

표준오차는 모집단의 평균과 모집단에서 추출한 표본들의 평균 사이의 거리이다. (표본평균분포-모집단에서 n개의 표본을 추출하여 그 표본들의 평균X들로 이루어진 분포-의 표준편차이다.) 따라서 표준오차는 표본통계치들이 모집단을 얼마나 잘 대표하는가를 나타내준다.