statistics/심리통계학의 기초

상관계수의 의미와 한계점

반찬이 2008. 2. 3. 22:24

상관관계 : 변수와 변수간의 관계로 둘 또는 그 이상의 변수들에 있어서 한 변수가 변동함에 따라 다른 변수가 어떻게 변동하는 것과 같은 변동의 연관성 정도, 변동의 크기의 정도와 방향을 상관관계(Correlation)이라고 한다.

상관계수 : 변수간의 관계의 정도와 방향을 하나의 수치로 요약해 표시해 주는 지수(指數)이다. 이 관계의 정도는 수치의 0에서 1사이의 절대값으로 나타낸다. 상관계수는 -1.00에서 +1.00사이의 값을 취하게 된다. 이 때 0에 가까울수록 상관관계는 낮아지는 것이며, 절대값 1에 가까워질수록 상관관계는 높아진다. 증감의 방향이 +인 경우에는 정적인 상관관계, -인 경우에는 부적인 상관관계가 있는 것으로 본다.

 

한계점:

(1) 상관계수는 두 변수간의 선형관계를 보는 것인데, 선형관계가 없다고 해서 상관이 없는 것이 아니다. 즉, 비선형관계라 하더라도 상관관계가 있는 것으로 나올 수 있다.

 

(2) 상관계수가 높다고 해서 두 변수만의 상관이 높은 것은 아니다. 두 변수는 별로 상관이 없는데, 이 두 변수에 영향을 미치는 다른 요인에 의해 상관이 높은 것으로 나타날 수 있다는 의미이다.

또한 이것과 반대되는 개념으로 두 변수 상관이 있는데 상관이 없는 것으로 나타날 수도 있다.

이런 것들의 주된 이유가 제3의 변수에 의해 영향을 많이 받는 경우이다. 그래서 서로 상관이 높은 변수들을 묶는다고 생각할 때, 1:1로 상관관계가 높은 것들을 선택하는 것이 아니고, 변수들을 한꺼번에 고려했을 때의 설명력으로 변수를 상관이있는 변수들로 선택한다.

그래서, 상관분석에서 상관계수를 구하는 것은 그냥 기계적으로 구하면 되지만, 해석에 있어서 상관분석은 엄청난 의미를 갖고 있다.