[問題] logti迴歸是否會限制樣本條件

看板Statistics作者 (那就念吧~~)時間12年前 (2012/07/01 16:26), 編輯推噓2(2015)
留言17則, 5人參與, 最新討論串1/1
目前有一筆資料想用logit歸迴式做估計 其中全體的樣本數是80,000 而應變數中 Y=1的樣本數只有300 Y=0的樣本數則是佔多數 我是在想 Y=1的樣本相對少太多了 會不會因為這樣而造成估計出來的係數都不顯著? 如果我的想法是對的話 有沒有什麼修正方法 目前尚未跑軟體,是因為還在整理資料階段 只是忽然想到這個問題~~ 感謝版友解惑 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.138.39.250

07/01 17:03, , 1F
若應變數有解釋能力, 沒有這種問題.
07/01 17:03, 1F

07/01 19:19, , 2F
Google關鍵字: rare event, logit. 可找到一些文獻.
07/01 19:19, 2F

07/01 20:56, , 3F
我只知道當細格有0時 肯定會不顯著 而複回歸下的交互作用
07/01 20:56, 3F

07/01 20:57, , 4F
幾乎都會顯著 然後斜率會爆炸
07/01 20:57, 4F

07/01 21:37, , 5F
細格有0的意思是?
07/01 21:37, 5F

07/01 23:26, , 6F
假設你有3個2元features,就會有2^3個格子,任一格有0
07/01 23:26, 6F

07/01 23:27, , 7F
交互作用就會出問題,像你的第一個feature是300:80000
07/01 23:27, 7F

07/01 23:27, , 8F
因此當你新增兩個features,那300就會再切分成4小塊
07/01 23:27, 8F

07/01 23:28, , 9F
所以套越多 rare events,細格就越有可能出現0
07/01 23:28, 9F

07/01 23:43, , 10F
然後model就爆炸了
07/01 23:43, 10F

07/02 00:14, , 11F
修正我的推文: "自變數..."
07/02 00:14, 11F

07/02 00:16, , 12F
g兄說的是有可能發生. 細格若有極小值是要小心對付.
07/02 00:16, 12F

07/02 00:18, , 13F
建議檢視模型的配適度, 會有更深入的討論.
07/02 00:18, 13F

07/03 10:31, , 14F
軟體已發展出適用這種的跑法了 就是 rare event logit
07/03 10:31, 14F

07/03 10:32, , 15F
STATA有 relogit
07/03 10:32, 15F

07/03 10:33, , 16F
若你DV是 count 則要跑 zero-inflated 的負二項迴歸
07/03 10:33, 16F

07/04 19:44, , 17F
先感謝推文的大大,我先跑跑看,有問題再麻煩大大們了
07/04 19:44, 17F
文章代碼(AID): #1Fy0cysT (Statistics)