statistics/심리통계학의 기초

raw data를 data transformation 하는 이유

반찬이 2008. 7. 15. 08:54

ANOVA에서 raw data를 data transformation 하는 이유를 쓰시오.

 

 

그럼 이 상황에서는 뭘, 어디에 초점을 맞추고 이야기하면 좋겠는가? 아노바라는 말은 안 나와도 상관없다. 모든 분포는 어떤가? 모든 분포는 가운데가 볼록하고, 좌우 대칭이어야 한다. 그럼 이제 실제 어떤 값을 얻었다. 하면, 저런 상태도 있고, 아닌 것도 있다. 아닌 것은 어떻게 설명해야 하는가? 모든 분포는 정상분포이어야 하는데, raw data를 얻고 보니, 그 data의 분포가 (정상)분포가 아닐 때는 그 사람에게 어떻게 설명해 주어야 하는가? 하나는 모집단은 원래 정상분포인데, 내가 가진 자료가 불충분해서 정상분포를 가정하지 못할 때가 있을 것이다. 그런 경우에는 샘플을 늘리면 상관이 없을 것이다. 그러면, 이제 두 번째 상황은 어떤 경우인가? 모집단의 raw data가 원래 정상분포가 아니다 하면 어떻게 할 것인가? 그래서, 못 고친다고 하면 어떻게 고칠 수 있다고 설명할 수 있을 것인가? 여기서는 측정단위를 말하는 것이다. 측정단위가 심리학에서 사용하고 있는 단위가 고정적인 것이 아니다라는 사실이다. 자연과학에서는 ppm이라든지 절대적인 지수가 되겠지만, 심리학에서는 절차상 54321이라고 하고 있는 것일 뿐이지, 그 자체가 절대적인 단위를 가지고 있는 것이 아니다 라는 사실이다. 그래서, 그 단위에 집착하면, raw data를 변경해서 안된다라고 하겠지만, 절대적인 것이 아니라면 raw data를 변경할 수 있는 것이다. 그것을 토대로 정상분포를 설명해주면 된다. 모집단을 보더라도 그 단위가 무엇이냐에 따라서 달라질 수가 있다. 대표적으로 변형될 수 없는 자료를 보는 것은 아니다. 예를 들어, 생물학적인 차원의 단위라고 한다면, 심장박동의 수, 혈압, 이걸 정상분포로 바꿀 수 있는 것은 아니다. 그러나, 그런 단위를 심리적으로 이용할 때에는 점수를 전부 무시해 놓고, 점수를 변형해서 통계방법을 사용한다.