statistics/심리통계학의 기초

두 평균의 차의 표집오차

반찬이 2008. 2. 3. 22:26

두 평균의 차의 표집오차란 무엇을 의미하며, 독립표집과 종속표집에서 어떻게 달라지는가?

표본을 추출할 경우에는 먼저 표본크기를 결정해야 한다. 표본을 추출할 때 표본크기와 표본추출방법에 따라 오차가 발생하는데 이를 표집오차(sampling error)라고 한다.

다른 조건이 일정하다고 가정할 때, 표집오차는 표본크기가 클수록 감소하는 경향이 있는데, 표본크기가 계속 커지면 전체 모집단의 크기와 비슷해져서 궁극적으로 전체집단과 같아진다는 사실이 이를 뒷받침해 준다.

그러나 실제로 시간과 비용을 포함한 여러 가지 현실적인 제약으로 말미암아 표본크기를 무한적으로 크게 할 수 없다. 또한 실제로 표본이 일정 크기 이상이 되면 조사의 정확도가 표본크기에 따라 비례적으로 영향을 받지 않기 때문에 반드시 표본을 크게 할 필요도 없다.

따라서 표본크기를 정하는 데는 어느 정도의 오차를 허용할 것인가를 먼저 정하는 것이 중요하며, 실제로 중요하게 고려되어 할 부분은 연구에서 분석하려는 하위집단의 수이다. 즉 허용할 수 있는 표집오차의 범위를 정한 후 표본크기를 정했다 할지라도 집단내에서 하위집단을 구분해 분석한다면 표집오차는 훨씬 커지게 된다.

600명의 표본에 대한 표집오차는 95%수준에서 4%이지만, 하위집단으로서 남자 384명에 대한 표집오차는 5%가 된다.

따라서 조사가 남녀의 차이에 초점이 맞춰진다면, 허용할 수 있는 표집오차의 범위를 결정할 때는 전체 600명이 아닌 하위집단의 수를 고려하여 표본크기를 정해야 한다.

이때 신뢰수준이란 표본으로 모집단을 추정한 결과에 대한 신뢰정도를 나타내는 것으로, 95% 신뢰구간에서 표집오차가 4%라는 의미는 조사결과의 오차한계 내에 모집단의 특성이 있을 확률이 95%라는 뜻이다. 보통은 95% 신뢰수준이 사용되고 있으나, 보다 엄밀한 추정이 요구될 때는 99%의 신뢰수준을 사용한다.

 

▶ 예

서울 시민 9,604명을 대상으로 2부제 차량운행에 대해 조사결과 찬성과 반대의 비율이 52% 대 48%라고 한다면, 오차범위는 95% 신뢰수준에서 1% 정도가 되며, 찬성은 51% ∼ 53% 사이의 어느 값, 반대는 47% ∼ 49% 사이의 어느 값이 될 수 있는 확률이 95%라는 의미이다. 만약 신뢰수준 99%에서 동일한 정확도를 유지하고자 한다면, 표본수를 16,587명으로 늘려 잡아야 한다.