Re: [問題] 交互作用 負負相乘的問題

看板Statistics作者 (隨風而逝~)時間15年前 (2010/10/09 22:56), 編輯推噓13(13080)
留言93則, 11人參與, 最新討論串4/5 (看更多)

10/09 19:44,
y大, 那你最好檢查一下你的程式
10/09 19:44

10/09 19:45,
sorry, 是 c大
10/09 19:45

10/09 19:47,
BTW, 我的建議是 X1,X2,X1*X2各自做centering,不是只有X1X2做
10/09 19:47

10/09 19:55,
其實想法很簡單, 就是利用centering去處理collinearity(笑)
10/09 19:55

10/09 20:24,
(假裝不知道它們之間的關係),不過,這只能避免一點計算上的
10/09 20:24

10/09 20:31,
小小問題...好處是除了截距項外其他係數不會變
10/09 20:31
我想 既然b大有那麼多種的想法 又要追求嚴謹 只好以我之前一份已經發表的paper裡的data 來檢驗各種在這個討論串曾提及的模型 以進一步驗證 哪些意見是正確的 哪些意見是不嚴謹的 Model1:Y=b0+b1X1r+b2X2r+b3(X1r*X2r)+a (完全不調整資料的原始模形) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 4.227 1.200 3.522 .001 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 X1r*X2r .117 .050 .804 2.333 .020 .027 37.699 基本上,在不調整任何資料型態的時候,在迴歸模式中,置入交互作用項 一定會導致共線性過高的問題,所估計之參數結果應該也是有偏誤的。 Model2:Y=b0+b1X1r+b2X2r+b3(X1c*X2c)+a (自變項不centering,交互作用項由兩個自變項centering後的交乘積形成) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 2.503 .914 2.739 .007 X1r .105 .050 .129 2.091 .038 .828 1.207 X2r .398 .066 .392 6.035 .000 .744 1.344 X1c*X2c .117 .050 .136 2.333 .020 .930 1.075 此模式為我個人引註自Aiken和West(1991),亦是我在這篇發表paper 中的模式,由數據結果來看,與模式一相較,共線性情況明顯改善, 估計的參數對研究內容亦有不錯的結果發現。 Model3:Y=b0+b1X1c+b2X2c+b3(X1c*X2c)+a (自變項centering,交互作用項由兩個自變項centering後的交乘積形成) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 4.390 .925 4.746 .000 X1c .105 .050 .129 2.091 .038 .828 1.207 X2c .398 .066 .392 6.035 .000 .744 1.344 X1c*X2c .117 .050 .136 2.333 .020 .930 1.075 此模式經P大先前提示,確實也為Aiken和West(1991)所證實之模式, ,由數據結果來看,與模式一相較,共線性情況明顯改善;與模式二 相較,除了截距參數不同外,其餘參數皆一致。 Model4:Y=b0+b1X1r+b2X2r+b3(X1r*X2r)c+a (自變項不centering,交互作用項由兩個自變項未centering的交乘積形成, 再直接對交互作用項進行centering) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 5.974 1.780 3.356 .001 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 (X1r*X2r)c .117 .050 .804 2.333 .020 .027 37.699 此模式為b大在原po e大的文章中回文所提到的 "把x1*x2當成另一個變數z, 對新變數做中心化" 雖然不知道引註自何處的觀點,但從分析結果可以瞭解 此模式與模式一相同,共線性問題嚴重,且與模式二和 模式三相較,截距與其他各估計參數皆不一致。 Model5:Y=b0+b1X1c+b2X2c+b3(X1r*X2r)c+a (自變項centering,交互作用項由兩個自變項未centering的交乘積形成, 再直接對交互作用項進行centering) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 4.413 .926 4.765 .000 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 (X1r*X2r)c .117 .050 .804 2.333 .020 .027 37.699 ※ 原模式五的資料key-in錯誤,已修正。 此模式亦為b大在先前的回文中,認為我所分析的模式四結果有異,是由於 我誤解他的原意所造成,b大認為"X1,X2,X1*X2各自做centering,不是只有X1X2做" 因此,模式五來自於此。 結果顯示,與模式一或模式四一樣,此模式仍然有共線性的偏誤,進一步查驗 各估計參數,亦會發現,除截距外,各估計參數與模式四完全相同,但與模式 二和模式三相比更是差異頗大,彷彿完全不同的模式。 總結上述 如同我在前一篇回文最後所言道 中心化是一個操作簡單 意義複雜的議題 更不是研究者憑藉個人喜惡 欲對任何變項進行中心化就為之 以上述五個模式而言 模式二和模式三的作法 在SCI&SSCI期刊裡 探討交互作用議題中 廣為被接受與引用 也因此奠立了Aiken和West兩位學者的學術地位 然而 以量化研究的精神而言 我也不敢太早言斷 b大所提及的模式四與模式五是錯的 頂多只能自認為其觀點目前不夠嚴謹(共線性仍然嚴重) 畢竟量化研究的哲學 從來無法證明"什麼是對的" 充其量只能證明"不是錯的" 或許 b大可以引註其觀點來源 與眾板友們分享 最後 其實小弟的統計功力也不敢自稱有多好 只是個對統計議題有興趣的迷世書僮 希望能夠在這個園地 與來自各地的統計同好 一同討論 一同交流 教學相長 感謝各位費神地看完這長篇大文 如有任何疏漏 還望各位大大 不吝斧正 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 112.105.112.241 ※ 編輯: coldwind0912 來自: 112.105.112.241 (10/09 23:23)

10/09 23:27, , 1F
廢神XD
10/09 23:27, 1F

10/09 23:31, , 2F
別會錯意呀 囧rz 我是怕大家看落落長很累呀~~~
10/09 23:31, 2F
※ 編輯: coldwind0912 來自: 112.105.112.241 (10/09 23:33)

10/09 23:35, , 3F
我從沒說過前面幾個方法是錯的啊... = =
10/09 23:35, 3F

10/09 23:36, , 4F
但是最後一個方法(也就是我提的方法) (X1X2)c的係數竟然
10/09 23:36, 4F

10/09 23:37, , 5F
整理的真詳細
10/09 23:37, 5F

10/09 23:37, , 6F
跟其他model不一樣,這讓我非常驚訝
10/09 23:37, 6F

10/09 23:41, , 7F
err...我看到的是修改前的table
10/09 23:41, 7F

10/09 23:43, , 8F
所以原po在前一篇說最後一個model的y估計值跟其他不一樣時
10/09 23:43, 8F

10/09 23:43, , 9F
我的第一個反應才是請你check你的程式
10/09 23:43, 9F

10/09 23:46, , 10F
因為centering只會影響SE的估計值,不會影響係數的估計
10/09 23:46, 10F

10/10 00:08, , 11F
c大的table整理得很好,但是不同table的VIF不能直接比較
10/10 00:08, 11F

10/10 00:10, , 12F
比如說, X1c*X2c = X1X2-m2*X1-m1*X2-m1*m2, m1,m2是X1,X2的
10/10 00:10, 12F

10/10 00:12, , 13F
average.所以不能直接拿 X1c*X2c 跟 X1*X2兩者的VIF來比
10/10 00:12, 13F

10/10 00:18, , 14F
VIF本來就沒有比較意義吧 他只是一種參考指標
10/10 00:18, 14F

10/10 00:19, , 15F
C大有空的話把所有東西的相關矩陣貼一下 資訊是差不多的
10/10 00:19, 15F

10/10 00:19, , 16F
VIF只是在反應模式的共線性程度 我有哪來比嗎?
10/10 00:19, 16F

10/10 00:21, , 17F
基本上 任何一個變項VIF>10 這模式的共線性已經....
10/10 00:21, 17F

10/10 00:23, , 18F
所以這幾個model fit 你比的是?要不要都還原成整理過後的
10/10 00:23, 18F

10/10 00:24, , 19F
model來看, i.e. y=c1+c2*x1+c3*x2+c4*x1*x2+e來比比看
10/10 00:24, 19F

10/10 00:25, , 20F
至少目前看來 c4的coeficient跟SE的估計值都是一樣的
10/10 00:25, 20F

10/10 00:27, , 21F
在共線性存在的情況下 係數跟估計值都是偏誤的...
10/10 00:27, 21F

10/10 00:28, , 22F
M1 M4 M5都是共線性偏誤的Model...
10/10 00:28, 22F

10/10 00:29, , 23F
就現在的分析結果來看 我們原本要討論的東西已經差不多了
10/10 00:29, 23F

10/10 00:29, , 24F
如果b大要堅持c4一致 我同意
10/10 00:29, 24F

10/10 00:30, , 25F
但請考慮 在M1 M4 M5中 c4對c2 c3的影響性
10/10 00:30, 25F

10/10 00:30, , 26F
我倒是比較好奇B大那個方法是哪來的 想看看提出人的想法
10/10 00:30, 26F

10/10 00:33, , 27F
c大,沒錯啊,所以還原成最簡化的model來比較看看啊
10/10 00:33, 27F

10/10 00:35, , 28F
P大,我說過了,那是假裝不知道X1X2跟X1,X2之間的關係
10/10 00:35, 28F

10/10 00:35, , 29F
我的原意是讓除了常數項以外的係數不要變
10/10 00:35, 29F

10/10 00:36, , 30F
嗯 我知道 我其實想跟B大要得是參考文獻 我想要瞭解一下
10/10 00:36, 30F

10/10 00:36, , 31F
因為我沒聽過這樣的作法 我覺得觀點上而言很新鮮
10/10 00:36, 31F
還有 22 則推文
10/10 01:03, , 54F
b 想說的是有更好的方法呀.
10/10 01:03, 54F

10/10 01:05, , 55F
M4 M5就是b大認為的好方法呀
10/10 01:05, 55F

10/10 01:06, , 56F
C大,我指的是把(X1-m1)*(X2-m2)展開,把這幾種model都寫成
10/10 01:06, 56F

10/10 01:08, , 57F
沒有cener以前的項,比較 X1, X2的SE(至於X1*X2的SE已經知道是
10/10 01:08, 57F

10/10 01:08, , 58F
一樣了),係數就不必比了,一定是一樣的
10/10 01:08, 58F

10/10 01:10, , 59F
b大 基本上M4M5的中心化 只改變a0 對a1~a3沒影響
10/10 01:10, 59F

10/10 01:11, , 60F
C大,就算M4M5是很不好的方法,看看它有多不好也很有趣啊
10/10 01:11, 60F

10/10 01:11, , 61F
但是 M1M4M5的共線性依舊存在 a1~a3的係數都是偏誤的
10/10 01:11, 61F

10/10 01:12, , 62F
而如同你在like this那邊所述
10/10 01:12, 62F

10/10 01:12, , 63F
C大,我指的是M2 & M3
10/10 01:12, 63F

10/10 01:12, , 64F
嗯 B大研究後發PAPER記得告訴我 XD
10/10 01:12, 64F

10/10 01:12, , 65F
M1與M2的a1相比 M2其實是a1-a3m2 這就是中心化的調整
10/10 01:12, 65F

10/10 01:13, , 66F
C大,你不會是直接比較這幾個table的係數吧!!!
10/10 01:13, 66F

10/10 01:13, , 67F
這個調整 也讓整個model的共線性降低
10/10 01:13, 67F

10/10 01:14, , 68F
我知道,但是要公平的比較這幾個method,還是要還原到原始
10/10 01:14, 68F

10/10 01:14, , 69F
因為 以這筆data而言 X1的true effect是a1-a3m2 非a1
10/10 01:14, 69F

10/10 01:15, , 70F
沒調整過的
10/10 01:15, 70F

10/10 01:16, , 71F
所以我有興趣知道的是a1-a3m2的SE跟M1中X1的SE來比
10/10 01:16, 71F

10/10 01:18, , 72F
明明是很簡單的問題, 卻爭論了那麼久...
10/10 01:18, 72F

10/10 01:18, , 73F
B大何不跑個模擬或推導後回一篇 讓我們品香一下
10/10 01:18, 73F

10/10 01:19, , 74F
兩個 "不相干" 變數是否中心化, 當然不影響兩變數的相關, 因
10/10 01:19, 74F

10/10 01:20, , 75F
為計算相關本來就要減去中心(平均數). 然而, X 與 X^2 的相
10/10 01:20, 75F

10/10 01:21, , 76F
會與 X 與 (X-E[X])^2 的相關相等嗎? X1 與 X1*X2 的相關會
10/10 01:21, 76F

10/10 01:22, , 77F
和 X1 與 (X1-E[X1])(X2-E[X2]) 的相關相等嗎? 一般而言是不
10/10 01:22, 77F

10/10 01:23, , 78F
會.
10/10 01:23, 78F

10/10 01:24, , 79F
至於考慮交互作用, 其獨立解釋變數是否要先置中再相乘而建構
10/10 01:24, 79F

10/10 01:25, , 80F
成交互作用項, 這又有甚麼好討論的?
10/10 01:25, 80F

10/10 01:26, , 81F
當最高階交互作用項是 x1*x2 時, 不管用 x1*x2 或先置中再相
10/10 01:26, 81F

10/10 01:26, , 82F
乘, 其係數都一樣. 影響的是主效應項 (x1, x2 之係數). 然而
10/10 01:26, 82F

10/10 01:27, , 83F
在有交互作用時, 單看主效應項本來就是錯誤的! 而就組合效應
10/10 01:27, 83F

10/10 01:28, , 84F
(x1, x2 與 x1*x2 組合來看), 其結論是相同的.
10/10 01:28, 84F

10/10 01:43, , 85F
推Y大
10/10 01:43, 85F

10/10 01:46, , 86F
感謝y大指教~
10/10 01:46, 86F

10/12 19:05, , 87F
認同y大,基本上跟我前篇回文意義一樣,趨勢一致
10/12 19:05, 87F

10/12 19:06, , 88F
基本上,這個討論很完整了.....等於小工作坊了
10/12 19:06, 88F

10/12 20:24, , 89F
請問什麼是bata值? 這連串的討論真讚
10/12 20:24, 89F

10/13 14:00, , 90F
y 大沒有提到 "趨勢", 你確定意義一樣?
10/13 14:00, 90F

10/13 14:01, , 91F
bata值是b的標準化
10/13 14:01, 91F

11/03 15:05, , 92F
大感謝這篇,本來正要開始試各種MODEL的,感謝C大
11/03 15:05, 92F

11/03 16:33, , 93F
現在又看到y大說的,太有道理了(淚)...
11/03 16:33, 93F
文章代碼(AID): #1Ci8AYqh (Statistics)
討論串 (同標題文章)
文章代碼(AID): #1Ci8AYqh (Statistics)