statistics/심리통계학의 기초

t-test를 하는 경우 생기는 문제점

반찬이 2008. 7. 15. 09:20

세 집단의 평균치를 검증하기 위해 t-test를 하는 경우 생기는 문제점과 그 해결책은 무엇인가? 변량분석이 필요한 이유가 무엇인가?

t 검증은 두 집단의 평균을 비교하는 것이기 때문에 세 집단을 비교하기 위해서는 두 집단씩 세 번을 비교해야 하는 결과를 가져온다. 이 때, 초래되는 문제점은

① 연구자가 설정한 α수준보다 더 높은 수준에서 통계적 유의성을 검증하게 된다. 예를 들어, α수준을 5%로 잡았을 경우, 1종 오류를 범하지 않을 확률은 95%가 된다. 그런데, 세 번 반복하여 t 검증을 하게 되면 (.95)3 = 0.857375..이 되고, 1종 오류를 범할 가능성은 14.2625...%나 된다. 즉, 연구자가 설정한 α수준보다 높은 수준에서 통계적 유의성을 검증하게 되므로 1종 오류의 가능성이 증가하게 된다.

② 동일한 표본을 1번 이상 t 검증에 사용하므로, t 검증의 기본가정인 독립성의 가정에 위배된다. t 검증은 변량이 같고 정규분포를 이루는 독립적인 두 모집단에서 추출한 두 개의 표본간의 평균차이를 보는 기법이므로 세 집단의 평균치들 간의 차이를 보는 방법으로 적당하지 않다. 따라서, 변량을 이용하여 두 집단 이상의 평균간의 차이를 비교하는 변량분석을 이용하여 검증해야 한다.

■ Z 점수 : 어떤 집단에서 얻은 원점수를 평균은 0, 표준편차는 1일 표준정규분포로 환산하여, 각 점수의 위치를 정확히 지적해주어서 상대적인 위치를 알게 해준다. 이러한 Z 점수를 알기 위해서는 모집단의 평균과 표준편차를 알아야 한다. 그러나 대부분의 연구가 모집단 전체를 대상으로 하기 힘들기 때문에 모집단의 표준편차를 알기가 어렵다. 이런 경우 t 검증을 실시한다.

■ t 검증 : 모집단의 표준편차를 모를 때 표준편차 대신에 추정치인 표준편차 즉, 표준오차를 이용한다. t 검증은 두집단의 평균치 비교시 사용하는 방법으로 평균치의 차이검증이다. 여기에서는 동일한 모집단에서 표본들을 취하여 그 집단의 평균을 구해 얻은 분포인 표본평균분포를 사용한다. 이 분포는 사례수가 많을수록 Z 분포와 닮다간다. 그러나 t 검증이 세 집단 이상일 경우에 사용하게 되면, 1종 오류가 발생할 가능성이 커지고, 기본 가정인 독립성 가정에 위반되므로 집단이 2개일 경우에만 사용한다.

■ F 검증 : 집단이 세 개 이상일 경우 이것 역시 평균치의 차이검증인데 여러개의 펴균치 비교가 가능한 변량 차이검증이다. F 검증은 처치효과를 보는 것으로, 처치효과가 없는 경우 F=1 이므로 F값은 1보다 커야한다.

 

→세집단의 평균차이를 비교하기 위해서는 두집단씩 비교하는 절차를 세 번 해야 하므로, 문제점이 초래된다. 즉, 두 집단간의 평균을 비교하는 방식인 t검증을 사용할 경우, 세집단에 대해서 두집단씩 총 3번을 비교해야 하는데, 이때 문제가 발생한다.

① 1종 오류가 높아진다. 다시 말해, 원래 설정한 α수준보다 더 높은 수준에서 통계적 유의성을 검증하게 되는 문제점이 발생한다. 예를 들어, α수준을 5%로 잡을 경우 1종오류를 범하지 않을 확률은 95%가 되는데, 세 번의 t검증을 하게 되면 1종 오류를 범할 확률이 26%< 1-(.95)2=0.26 >로 늘게 되는 것이다. ->experiment wise error

② t검증의 기본가정인 독립성의 가정에 위배된다. t 검증은 변량이 같고 정규분포를 이루는 독립적인 두 모집단에서 추출한 두 개의 표본집단간의 평균차이를 보는 기법인데, 세 번 비교를 한다는 것은 동일한 표본을 1번 이상 t검증에 사용하게 되므로, 원래의 가정인 독립성가정이 지켜지지 못하는 것이다. 따라서 세집단의 평균차이를 보는 방법으로는 적절하지 않다. ∴두 집단이상의 평균차이를 비교하기 위해서는 변량분석을 이용해 검증해야 한다.