[問題] 迴歸分析中變數重要性

看板Statistics作者 ( )時間1年前 (2024/08/01 00:32), 編輯推噓3(3024)
留言27則, 4人參與, 1年前最新討論串1/1
大家好 我不是統計背景出身的 但今天跟學生咪挺時聊到 在迴歸分析中可以利用某解釋變數加入前後的 R^2 變化 來當作該變數的重要程度 請問這個做法是常見或正確的嗎? 有沒有相關文獻可供參考呢? 我自己想了一個反例如下: 假設有三個解釋變數 x1, x2, x3 其中 x1 和 x2 很有解釋力但卻高度共線性 x3 則是聊勝於無的變數 在控制 x1 和 x3 時 由於 x2 和 x1 高度共線性 所以額外加入 x2 並不會讓 R^2 上升太多 另一方面 在控制 x1 和 x2 時 由於 x3 本身沒啥用處 所以額外加入 x3 也不會讓 R^2 上升太多 綜上所述 光靠 R^2 的變化來定義變數重要性可能會有問題(?) 但如果把上例的 x1 拿掉呢? 我也不知道答案 印象中在隨機森林裡有類似的變數重要性定義方式 但我查了 ISLR 第二版的 8.2.1 節 其定義是將每棵樹加入該解釋變數後下降的 RSS 取平均 但這麼一來 由於資料已經重新取樣 共線性的問題應該不大 與上述範例裡的迴歸分析似乎又不相同 還請各位大大指點迷津或者提供相關文獻 萬分感謝~ <(_ _)> -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.78.36.246 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1722443551.A.5FF.html

08/01 07:13, 1年前 , 1F
RF一般會講到的variable importance 有 ISLR 8.2.1中
08/01 07:13, 1F

08/01 07:13, 1年前 , 2F
的 loss gain和2001年的那篇review中使用的variable
08/01 07:13, 2F

08/01 07:13, 1年前 , 3F
importance (又稱 permutation importance )
08/01 07:13, 3F

08/01 07:15, 1年前 , 4F
後者的行為更像linear regression 裡面會遇到的共線
08/01 07:15, 4F

08/01 07:15, 1年前 , 5F
性問題
08/01 07:15, 5F

08/01 07:30, 1年前 , 6F
前者因為predictor subsampling的關係,對每棵樹而講
08/01 07:30, 6F

08/01 07:30, 1年前 , 7F
變數加入的順序是不一定的,每個變數都有機會在它變
08/01 07:30, 7F

08/01 07:30, 1年前 , 8F
得沒有用之前被計算loss gain
08/01 07:30, 8F

08/01 07:33, 1年前 , 9F
這個問題的重點在,你期望的importance,到底是 info
08/01 07:33, 9F

08/01 07:33, 1年前 , 10F
rmative 還是 uniqueness
08/01 07:33, 10F

08/01 12:55, 1年前 , 11F
至少要用adjusted R^2 ...
08/01 12:55, 11F

08/01 13:08, 1年前 , 12F
"變數重要性"本來就是一個籠統的概念 每個人說的重要
08/01 13:08, 12F

08/01 13:10, 1年前 , 13F
性指涉的東西可能不一樣 例如如您所述考慮/不考慮其
08/01 13:10, 13F

08/01 13:13, 1年前 , 14F
他變數就是一個在每個人理解的"重要性"中扮演腳色不
08/01 13:13, 14F

08/01 13:13, 1年前 , 15F
一的考量
08/01 13:13, 15F

08/01 13:28, 1年前 , 16F
一旦想要考慮各種變數組合 其實就是在問某變數在不同
08/01 13:28, 16F

08/01 13:29, 1年前 , 17F
個regression model裡的重要性如何統合成單一指標
08/01 13:29, 17F

08/01 13:30, 1年前 , 18F
這其實沒有一個標準方法 甚至不同研究圈的主流方法也
08/01 13:30, 18F

08/01 13:31, 1年前 , 19F
不一致 也有看過有研究者個人會特別偏好某種方法
08/01 13:31, 19F

08/01 13:34, 1年前 , 20F
我熟悉的領域現在大都使用Burnham的方法 算一遍所有
08/01 13:34, 20F

08/01 13:35, 1年前 , 21F
變數子集的regression model後用AIC去組出一個score
08/01 13:35, 21F

08/01 13:45, 1年前 , 22F
一個比較簡單的方法,就是同時報導複迴歸及單迴歸的
08/01 13:45, 22F

08/01 13:45, 1年前 , 23F
標準化迴歸係數。但這還不是一個單一的「重要性指標」。
08/01 13:45, 23F

08/01 20:08, 1年前 , 24F
regression model很忌諱共線性,要先排除,r square 才
08/01 20:08, 24F

08/01 20:08, 1年前 , 25F
有意義,無他法。
08/01 20:08, 25F

08/02 11:05, 1年前 , 26F
R package relaimpo 中提供的數種方法也可以參考。
08/02 11:05, 26F

08/02 11:05, 1年前 , 27F
文章代碼(AID): #1cgcSVN_ (Statistics)