statistics/심리통계학의 기초

Σ(Y-Y)2 = Σ(Y-Y)2 + Σ(Y-Y)2의 의미를 설명

반찬이 2008. 7. 15. 08:14

Ŷ=bX+a 라는 회귀방정식이 있다. 이 때, Ŷ는 예측된 값이고, 실제 관측된 값은 Y, 그리고, a는 기울기, b는 절편이라 할 수 있다. 그런데, 이 Ŷ=bX+a 라는 회귀방정식은 하나의 일차방정식(linear equation)으로 그래프로 그리면, 하나의 선분으로 그릴 수 있다. 이 Ŷ=bX+a을 구할 때, 관찰된 점수에서 예측된 값을 뺀 것(편차점수)에다가 제곱을 하여 모두 더한 것이 Σ(Y-Ŷ)2 최소일 때, 가장 작을 때, 그 값이 제일 적은 것이 Ŷ=bX+a 선분을 잘 예측해주는 선분이다. (여러 개의 선분 중에서) 즉, Σ(Y-Ŷ)2가 최소일 때 전체값을 잘 대표해준다. 그래서, 이러한 편차점수를 가지고 구하는데, 이것을 보고 최소자승화(method of least squares)라고 한다.

 

(Y-Ỹ)는 전체를 한 집단으로 놓고 보았을 때, Y 한 점수는 Y의 전체평균과 편차점수와 어떤 관계가 있는가?를 보는 것이다. (이 공식을 유도하는 식 노트보고 쓰고...)

Σ(Y-Ỹ)2= Σ(Y-Ŷ)2+Σ(Ŷ-Ỹ)2의 의미는

Y값과 Y 평균은 Y의 예측값과 어떤 관계가 있는가를 보는데 알 수 있는 것이다.

 

Σ(Y-Ỹ)2= Σ(Y-Ŷ)2+Σ(Ŷ-Ỹ)2 에서 Σ(Y-Ỹ)2는 SSt. 전체점수에서 평균을 뺀 것이고, Σ(Y-Ŷ)2 는 SSregression 이고, Σ(Ŷ-Ỹ)2 는 SSerror 이다. 그래서, 다시 쓰면,

SSt= SSR + SSe로 쓸 수 있다.

그래서, 이다. R2의 최대 크기는 최대 1인데, error가 0일 때, 최대 SSt는 1이 된다. 이것을 보고 결정계수(determination co-efficient)라고 한다. 그래서, R 은 얼마나 잘 예측하는 가를 보여주는 것이다. 예측을 변량이라는 말로 표현했을 때, 전체변량을 1로 볼 때, 예측하는 값은 얼마인가?를 보는 것을 표현한 것이다.