안녕하십니까 교수님!
처음으로 질문드립니다.
수업시간에 귀무가설이 포함하는 제약의 개수가 1개인 경우 t - test를 이용한다고 배웠습니다. 한편, 귀무가설이 포함하는 제약의 개수가 1개 이상인 경우(보통 2개 이상으로 생각하지만 이론적으로 1개 이상) F - test를 이용한다고 배웠습니다. 그런데 통계학 복습 부분을 보면 F통계량을 정의 할 때, F통계량의 확률적 속성의 근원이 되는 [카이제곱]확률 변수들이 서로 독립이어야만 정의가 가능하다고도 배웠습니다. 예를들어, W1과 W2가 독립, W1이 [df of W1] 카이제곱분포를 따르고 W2가 [df of W2] 카이제곱분포를 따른다고 하면 F 통계량의 정의에 따라 F 분포를 정의할 수 있습니다.
그런데 가설검정 부분에서 ((RRSS-URSS)/r)/(URSS/(n-k)) 로 F[r,n-k] 분포를 정의했다면, RRSS-URSS와 URSS가 각각 자유도 [r], 자유도 [n-k] 카이제곱분포를 따른다고 볼 수 있는데, 고민을 정말 많이 해봤으나 RRSS-URSS와 URSS의 확률적 독립성에 대해서 쉽게 "이것은 이렇기 때문에 이렇다!" 하고 답을 내리기가 힘들었습니다. 이 두 통계량이 어떻게 확률적인 독립성을 유지하는지 궁금합니다.
조금 더 덧붙이자면 수업시간에 배웠던 가정 (A.1)~(A.5)에 따르면 찾을 수 있는 확률 변수는 Ut 하나 듯 하나 RSS를 정의 할 때 RSS의 분자 안에 들어가는 변수는 et로 알고 있습니다(e'e=sum of et^2 where t=1,...,n). 물론 분모에 [Y-Y바]'[Y-Y바]가 들어가 Ut를 뽑을라면 뽑을 수 있겠지만, Ut가 분자가 아닌 분모에 위치하고 있어서..... 이렇게 왔다갔다 생각하다보면 머리가 너무 아파서 질문올렸습니다...!
((RRSS-URSS)/r)/(URSS/(n-k)) 로 F[r,n-k] 분포를 정의했다면, RRSS-URSS와 URSS가 각각 자유도 [r], 자유도 [n-k] 카이제곱분포를 따른다고 볼 수 있는데, 고민을 정말 많이 해봤으나 RRSS-URSS와 URSS의 확률적 독립성에 대해서 쉽게 "이것은 이렇기 때문에 이렇다!" 하고 답을 내리기가 힘들었습니다. 이 두 통계량이 어떻게 확률적인 독립성을 유지하는지 궁금합니다.
(답) 건강한 궁금증이며 우리가 공부한 내용만으로는 이유를 밝히기 쉽지 않은 궁금증이기도 함. 이유는 다음과 같음.
우선 RRSS-URSS를 모형에 포함된 원래의 변수와 계수들로 표현한 식이 노트 105쪽 상자 속 위에서 넷째 줄에 있음. 그 표현을 보면 (A.1)~(A.5) 아래 RRSS-URSS 가 확률변수가 되는 것은 순전히 betahat 때문임을 관찰할 수 있음 (그외에는 확률변수가 없으므로.). 반면에, URSS = e'e 이므로 URSS가 확률변수가 되는 이유는 순전히 e 때문임. 또한 두 확률변수가 독립이면 그들의 함수들도 독립이므로, 결국 betahat과 e가 독립임을 보이면 그들의 함수로 만들어진 RRSS-URSS 와 URSS가 독립임을 밝히는 셈이 됨.
Ok, 해보자....
betahat -beta = (X'X)^-1 X'U (target+estimationerror form)
e = QxU
고로 이들 둘이 독립임을 보이면 됨.
그런데 이들 둘은 식에서 보듯 모두 U에만 확률적 속성이 의존. 고로 (A.5) 아래 이들 둘의 결합확률분포는 정규분포임.
결합분포가 정규분포를 따르는 두 확률변수는 공분산이 영이면 독립임을 복습했었음.
Cov(betahat, e) = E[(betahat-beta) * e' ]
= E[ (X'X)^-1 X'U * U'Qx]
= (X'X)^-1 X' E(U U')Qx
= sigma^2 (X'X)^-1 X'Qx
= 0.
고로 증명되었음.
URSS = e'e = (QxU)'(QxU) =