Re: [問題] 回歸問題急問
這邊令我在意的不是方法學
而是心態
你在心態上已經認定
好的迴歸模型就是要建立出變數都顯著的模型
因此 很在意造成不顯著的變數跟outlier
那麼 我這樣說明好了
你的模型之所以會顯著 其實就是那極端值也是那不顯著的變數造成的
為什麼呢
因為y=a+bx中
b的意義就是當x變動一單位時,y會隨之變動幾單位
但如果x變異不大時,表示X集中於平均數
但如果有outlier的產生 那變異性就會增加
那麼b就會顯著 那麼有沒有意義呢?
接下來就是變數
請考慮共線性問題以及交互作用
放入變數顯著 刪去不顯著的變數後不顯著
你可以把不顯著的變數當作是化學作用的催化劑
有催化劑以後 促進化學作用的產生
進行化學反應後 催化劑不會有任何改變
因此催化劑不顯著
但是沒有催化劑 化學作用一樣會產生 只是費時長久
所以 請思考不顯著的原因
而不是刪了就好
接下來回答本文
建立一個好的模型
在於完善的理論基礎與架構
然後 有多少證據說多少話
好的模型 不必在於星星的多寡
※ 引述《coolcarl83t (??????????????????)》之銘言:
: 請問在建立回歸模型時,是要先透過STEPWISE等方法把不顯著的變數刪掉
: 把多餘變數刪掉後,在開始刪除資料中的離群值??
: 還是要先透過COOK/DFFITS法先將離群值刪除後
: 再透過STEPWISE等法來把不顯著的變數刪掉以找出最適合的MODEL??
: 今天在跑回歸時,我先透過STEPWISE的方法把不顯著的變數刪掉,結果
: 開始刪離群值後,那些剩下來顯著的變數卻變不顯著了???
: 之後我採用先刪離群值的方法,然後再刪變數,結果在刪完變數後
: 又有過大的離群值要刪了???
: 感覺這兩個都是互相關聯
: 請問各位大大要這兩個的優先順序是如何
: 到底要建立一個好的回歸模型是要先刪離群值或是先刪除多餘的變數??
: 感謝各位大大的回答
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 134.208.29.230
推
12/28 15:38, , 1F
12/28 15:38, 1F
討論串 (同標題文章)