[問題] 多元迴歸中 Missing value 該如何處理較恰當

看板Statistics作者 (那一天到了)時間15年前 (2010/08/18 23:48), 編輯推噓1(107)
留言8則, 3人參與, 最新討論串1/1
請教各位先進,我想做一個多元迴歸的模型 自變項有6項,每一項各有1047筆資料 但其中各自變項的NA值約有100個上下 請問我該以平均值代替NA值, 還是只要有任一自變項出現NA值,就刪除該筆資料呢? 小弟是統計新手,拜託各位多多指教,謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 111.252.224.47

08/19 00:38, , 1F
你可以刪除 若不想刪可以使用插補法(imputation)
08/19 00:38, 1F

08/19 01:43, , 2F
除了刪除之外 如果要塞值要考慮到欄位的意義 如果單純從統
08/19 01:43, 2F

08/19 01:44, , 3F
記考量就插補了
08/19 01:44, 3F

08/19 10:13, , 4F
六個欄位都是模擬考的成績,Y值是基測實際成績
08/19 10:13, 4F

08/19 10:14, , 5F
小弟爬文的結果,大多是建議刪除或以平均取代NA值
08/19 10:14, 5F

08/19 10:15, , 6F
我目前的想法是,六個資料中若NA值低於三項,則補平均
08/19 10:15, 6F

08/19 10:16, , 7F
若同一筆資料超過三個NA值,則刪除該筆資料
08/19 10:16, 7F

08/19 10:17, , 8F
請問這樣的做法在學理上是ok的嗎?感謝各位~~~
08/19 10:17, 8F
文章代碼(AID): #1CR03Sk- (Statistics)