[討論] 關於多變量第五次作業
※ [本文轉錄自 NTHU_STAT98 看板 #1C8EakTo ]
作者: chariotzy (不忘) 看板: NTHU_STAT98
標題: [討論] 關於多變量第五次作業
時間: Wed Jun 23 00:47:39 2010
大家好~
關於第五次作業,有幾個問題是出現在很多人作業中的,在這邊提醒大家注意。
(基於在這邊的說明,作業上我就不再詳述這些標示出來的問題原因。)
(這邊的說明也可能不是很清楚,有問題請互相討論,或在禮拜四助教時間來討論。)
(1) 大家用電腦算出來的the first pair of canonical variates
U1 = 0.137 y1 + 0.779 y2 + 0.612 y3
V1 = -0.734 x1 + 0.307 x2 + 0.073 x3 - 0.625 x4
注意,這樣的U1和V1,相關性其實是corr(U1,V1)=-0.344 (負的)!
這是因為我們算的方法中,考慮的是讓corr^2最大,這導致我們找出來的
特徵向量可能方向會跟我們想要的相反,要自己注意並做修正,避免解釋
上出現問題。(除了解釋上可能會有問題,這組(U1,V1)的相關性是負的,
所以不可能會是達到最大的相關性。因此就定義來看,這是不對的。)
(2) ΣΣΣΣΣ: Σ_11的負1/2乘Σ_12乘Σ_22的負1乘Σ_21乘Σ_11的負1/2
ΣΣΣΣ: Σ_11的負1乘Σ_12乘Σ_22的負1乘Σ_21
ΣΣΣΣΣ和ΣΣΣΣ <= 理論上,用這兩個做出來的"結果"會一致
但是要注意,如果是用ΣΣΣΣΣ做,我們是先算出他長度為1的特徵向量,
在乘上Σ_11^(-1/2) 來當作loading <= 所以基本上長度不會再是1
但是其實我們可能都是用ΣΣΣΣ來做。問題在於算出來的特徵向量,電腦基
本上是給我們單位長度化後的向量,因此這個倍數就會造成我們可能不是真的
得到和ΣΣΣΣΣ算出來一樣的值。這個差異在解釋loading可能不會有影響,
但是如果拿這個值來算U和Y或U和X等等的correlation,就會出現問題了。
(甚至可以看到有些算出來會大於1,應該是因為這個原因,不是誤差造成的。)
(3) 注意,當 U1 = 0.137 y1 + 0.779 y2 + 0.612 y3 ,y2和y3的係數比較大,我
們可能會說這兩個變數對於U1有比較多的貢獻或有比較高的權重等等(然後去做
意義上的解釋)。但是我們不能說y2或y3跟U1的相關性就一定高過y1跟U1的相關
性。除了這兩種敘述表達的是不一樣的事情外,"y2或y3跟U1的相關性會高過y1
跟U1的相關性"也不一定成立。
(4) 對於題目要的compact model,當我們做完CCA,選擇一組或兩組相關性較高的
U和V來描述Y和X的關係,就已經算是給了一個compact model了。
當然也可以更進一步的去fit regression model,但是對於response和predictor
選擇的合理性,有些同學可能得再想想。
以上供大家參考,如果覺得有問題,可以來信約時間討論。祝大家期末考順利^^
by 助教
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.32.237.238
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.32.237.238
推
06/23 01:07, , 1F
06/23 01:07, 1F
推
06/23 09:19, , 2F
06/23 09:19, 2F
推
06/24 12:34, , 3F
06/24 12:34, 3F