[問題] 關於遺失值的處理

看板Statistics作者 (就只是大叔而已)時間8年前 (2017/10/13 18:00), 編輯推噓2(2030)
留言32則, 2人參與, 8年前最新討論串1/1
不好意思 新手發問 在資料預處理的時候 發現有些變數的遺失值過大(>90%以上都是) 像這樣的變數還適合做遺失值的填補來做後續的分析(回歸、成分分析...)嗎? 還是說有一定的原則來取捨變數? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.76.175.139 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1507888823.A.3FE.html

10/14 04:09, 8年前 , 1F
主要還是看問題吧
10/14 04:09, 1F

10/14 04:09, 8年前 , 2F
遺失值也是一個訊息 不是NA就不理他
10/14 04:09, 2F

10/14 04:10, 8年前 , 3F
你要想為何會產生 NA
10/14 04:10, 3F

10/14 04:10, 8年前 , 4F
在 ML 的 tree 上 遺失值也能做分析
10/14 04:10, 4F

10/14 04:11, 8年前 , 5F
而大多數 ML ,都是從 tree 出發, RF、XGB 等等
10/14 04:11, 5F

10/14 04:12, 8年前 , 6F
例如在製程的問題上 NA 是正常的 不能不理他
10/14 04:12, 6F

10/15 20:54, 8年前 , 7F
是病歷資料庫的分析...有些項目有做 有些則沒
10/15 20:54, 7F

10/15 20:55, 8年前 , 8F
想找出幾個可能和疾病有關的變數
10/15 20:55, 8F

10/15 20:56, 8年前 , 9F
才會想說遺失過大的填補是否有意義?
10/15 20:56, 9F

10/15 22:35, 8年前 , 10F
你可以從醫學領域出發去想
10/15 22:35, 10F

10/15 22:35, 8年前 , 11F
疾病應該就是 有病跟沒病
10/15 22:35, 11F

10/15 22:36, 8年前 , 12F
填補可以試試平均
10/15 22:36, 12F

10/15 22:36, 8年前 , 13F
或是特殊醫療檢測 例如核磁共振
10/15 22:36, 13F

10/15 22:37, 8年前 , 14F
一般很難做到核磁共振 就算做這個能高度判斷出有無病
10/15 22:37, 14F

10/15 22:37, 8年前 , 15F
一般醫院還是從X光、超音波開始,頂多到電腦斷層
10/15 22:37, 15F

10/15 22:38, 8年前 , 16F
你做出核磁的變量x超強 但好像意義不大?
10/15 22:38, 16F

10/15 22:41, 8年前 , 17F
https://goo.gl/eibh9L 我做製成分析並寫篇文章介紹
10/15 22:41, 17F

10/15 22:41, 8年前 , 18F
基本上也是高度遺失值
10/15 22:41, 18F

10/16 09:37, 8年前 , 19F
f大的東西看起來好誘人XD 我目前是還在鑽統計的模型
10/16 09:37, 19F

10/16 09:41, 8年前 , 20F
不過很想走到ML的領域去 可以的話 f大能否再多介紹一些
10/16 09:41, 20F

10/16 09:43, 8年前 , 21F
另外我的變數都是一般抽血檢查或問診結果
10/16 09:43, 21F

10/16 09:44, 8年前 , 22F
我後來想想填補的效果不應該在模型中跑出顯著差異
10/16 09:44, 22F

10/16 09:44, 8年前 , 23F
所以就大膽補下去了
10/16 09:44, 23F

10/28 15:11, 8年前 , 24F
我剛好10/16被抓去當兵 以後很難回你啦
10/28 15:11, 24F

10/28 15:12, 8年前 , 25F
基本上醫學上做這個 應該就是希望
10/28 15:12, 25F

10/28 15:12, 8年前 , 26F
最少成本(檢驗方法) 達到最高判斷率吧?
10/28 15:12, 26F

10/28 15:13, 8年前 , 27F
一般迴歸可以看 p value, 或是 lasso AIC BIC 等等
10/28 15:13, 27F

10/28 15:14, 8年前 , 28F
遺失值方面 應該有相對應的統計模型
10/28 15:14, 28F

10/28 15:14, 8年前 , 29F
我是從 ML 的角度去看
10/28 15:14, 29F

10/28 15:14, 8年前 , 30F
利用少量變數 達到不錯的準確度
10/28 15:14, 30F

10/28 15:15, 8年前 , 31F
另外 lasso 也很多種變形
10/28 15:15, 31F

10/28 15:15, 8年前 , 32F
不要侷限在單一檢驗方法 全部一起用會比較好
10/28 15:15, 32F
文章代碼(AID): #1Pu8wtF- (Statistics)