statistics/심리통계학의 기초

단순상관계수(r)

반찬이 2008. 2. 3. 22:16

단순상관계수(r)를 적절히 활용하기 위한 기본가정들에 대하여 논의하고, 단순상관계수를 해석하는 일반적인 방법에 대하여 구체적으로 예를 들어 설명하시오.

 

 

 

# 상관계수 r의 가정과 해석

1) 선형성

두 변수 X와 Y는 선형을 가정하여 곡선보다 직선적 관계가 있을 때 상관계수가 높게 나타난다.

 

2) 등분산성

X변수의 어느 지점에서도 Y변수의 흩어진 정도가 같음을 가정하는 것이다.

 

3) 두 변수의 정규분포성

두 변수의 모집단이 모두 정규분포를 이룬다는 가정이 필요하다. 만일 두 변수 중 하나라도 정규분포에 위배되면 상관계수가 정확히 해석될 수 없다.

등분산성과 정규분포가 가정되지 않으면 비모수 통계를 사용해야 함.

 

4) 임의 독립표본의 측정값

표본이 모집단에서 확률적으로 선정되어야 한다는 것이다.

이 가정을 만족시키지 못하면 표본에서 추정된 상관계수는 모집단의 모수를 측정할 수 있는 신뢰로운 추정값이 될 수 없다.

 

해석

상관계수는 -1에서 1 사이의 값으로 나타나며, 절대값이 클수록 상관이 크고 0에 가까워질수록 상관이 적어지는 것으로 해석한다. 상관계수가 음일 때는 부적상관이라고 하며, 이는 두 변수가 서로 다른 방향으로 변화하는 것이다. 즉, X의 값이 증가하면 Y는 감소하고, X가 감소할수록 Y는 증가한다. 상관계수가 양수일 때는 정적 상관으로, 두 변수가 같은 방향으로 변화하고 있다고 본다.

상관계수의 조건

1) X, Y 두 변수는 모두 등간, 비율 척도에 의해 측정된 연속 변수일 것.

2) 정규분포를 이루는 두 변수 X, Y 가 일직선이라는 선형성이 가정될 것.

 

# 상관분석에 영향을 끼치는 요인

1) 집단의 통합

상관분석을 할 때 연구 대상을 명확히 밝히고 한정해야만 한다. 초중고 학생들의 성별에 따른 자존감의 상관관계와 중학생들의 성별에 따른 자존감의 상관관계에는 분명 차이가 있을 수 있다.

 

2) 자료의 절단

자료를 어디서부터 절단하여 사용하느냐에 따른 문제. 즉, 대입 수능의 국어점수와 영어 점수간의 상관관계와 대입 수능 서울 4년제 대학 합격자들의 국어와 영어 점수 간의 상관관계는 차이가 있을 수 있다.

 

3) 사례수

표본의 개수가 너무 적으면 표본 추출의 우연의 요인이 커지게 되므로 신뢰로운 추정값을 구하기 어려워진다.

 

4) 극단치

너무 극단적으로 크거나 작은 값에 의하여 변수의 관계가 변화될 수 있으므로 산포도를 그려 극단값을 제거한 후 전형적인 표본만으로 상관계수를 계산하는 것이 좋다.