[問題] 迴歸分析中變數重要性
大家好
我不是統計背景出身的
但今天跟學生咪挺時聊到
在迴歸分析中可以利用某解釋變數加入前後的 R^2 變化
來當作該變數的重要程度
請問這個做法是常見或正確的嗎?
有沒有相關文獻可供參考呢?
我自己想了一個反例如下:
假設有三個解釋變數 x1, x2, x3
其中 x1 和 x2 很有解釋力但卻高度共線性
x3 則是聊勝於無的變數
在控制 x1 和 x3 時
由於 x2 和 x1 高度共線性
所以額外加入 x2 並不會讓 R^2 上升太多
另一方面
在控制 x1 和 x2 時
由於 x3 本身沒啥用處
所以額外加入 x3 也不會讓 R^2 上升太多
綜上所述
光靠 R^2 的變化來定義變數重要性可能會有問題(?)
但如果把上例的 x1 拿掉呢?
我也不知道答案
印象中在隨機森林裡有類似的變數重要性定義方式
但我查了 ISLR 第二版的 8.2.1 節
其定義是將每棵樹加入該解釋變數後下降的 RSS 取平均
但這麼一來
由於資料已經重新取樣
共線性的問題應該不大
與上述範例裡的迴歸分析似乎又不相同
還請各位大大指點迷津或者提供相關文獻
萬分感謝~ <(_ _)>
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.78.36.246 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1722443551.A.5FF.html
推
08/01 07:13,
1年前
, 1F
08/01 07:13, 1F
→
08/01 07:13,
1年前
, 2F
08/01 07:13, 2F
→
08/01 07:13,
1年前
, 3F
08/01 07:13, 3F
→
08/01 07:15,
1年前
, 4F
08/01 07:15, 4F
→
08/01 07:15,
1年前
, 5F
08/01 07:15, 5F
推
08/01 07:30,
1年前
, 6F
08/01 07:30, 6F
→
08/01 07:30,
1年前
, 7F
08/01 07:30, 7F
→
08/01 07:30,
1年前
, 8F
08/01 07:30, 8F
→
08/01 07:33,
1年前
, 9F
08/01 07:33, 9F
→
08/01 07:33,
1年前
, 10F
08/01 07:33, 10F
→
08/01 12:55,
1年前
, 11F
08/01 12:55, 11F
→
08/01 13:08,
1年前
, 12F
08/01 13:08, 12F
→
08/01 13:10,
1年前
, 13F
08/01 13:10, 13F
→
08/01 13:13,
1年前
, 14F
08/01 13:13, 14F
→
08/01 13:13,
1年前
, 15F
08/01 13:13, 15F
→
08/01 13:28,
1年前
, 16F
08/01 13:28, 16F
→
08/01 13:29,
1年前
, 17F
08/01 13:29, 17F
→
08/01 13:30,
1年前
, 18F
08/01 13:30, 18F
→
08/01 13:31,
1年前
, 19F
08/01 13:31, 19F
→
08/01 13:34,
1年前
, 20F
08/01 13:34, 20F
→
08/01 13:35,
1年前
, 21F
08/01 13:35, 21F
→
08/01 13:45,
1年前
, 22F
08/01 13:45, 22F
→
08/01 13:45,
1年前
, 23F
08/01 13:45, 23F
推
08/01 20:08,
1年前
, 24F
08/01 20:08, 24F
→
08/01 20:08,
1年前
, 25F
08/01 20:08, 25F
→
08/02 11:05,
1年前
, 26F
08/02 11:05, 26F
→
08/02 11:05,
1年前
, 27F
08/02 11:05, 27F
