[問題] 勝算比、相對重要性與顯著與否的解讀
感謝之前板友的幫助,讓我可以順利解讀與建立多項式迴歸模型!
但我又遇到新問題了,想再諮詢一下各位的專業意見>"<
目的:篩選變數尋找表現較好的模型
前提背景:建立full model後,以顯著與否、加入變數前後R^2的變化來做變數篩選標準
以此標準建立模型之後,在解讀時發現問題
1. 其中有個連續型變數,係數=0.00040673,p<0.05,OR=1 (實際為1.000406812)
google得知 OR=1 表示此變數對疾病的發生不起作用
套用在我的模型情境中,推測是表示此變數對選擇購買哪種商品沒有影響
我不太懂的地方是,OR=1 但卻顯著,這是在"統計上",此變數真的沒有影響的意思?
連續型變數解釋成【若變數增加一單位,相較於reference group,選擇此商品的可能
性會增加或減少xxx倍】
OR這麼接近1,依舊可以這樣解釋嗎?還是會直接解釋成此變數無影響?
2. 透過estimate coefficient,手動計算了每個變數的relative importance
發現有一個變數,雖然不顯著,但relative importance卻是所有變數中第一高 (56%)
這應該如何解釋呢?
不知道是否該把此變數拿掉,才能較好了解剩下的變數的相對重要性?
3. 發生上述兩種情況,這兩個變數通常會怎麼處理呢?會拿掉還是繼續保留?
若有需要其他資訊,提醒後我會盡速補上!先感謝各位的幫助:)
備註:relative importance的計算參考 https://goo.gl/rJqBkY 第四頁的Exhibit9.1
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.240.104.195
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1498305524.A.009.html
推
06/24 21:21, , 1F
06/24 21:21, 1F
→
06/24 21:21, , 2F
06/24 21:21, 2F
推
06/24 21:21, , 3F
06/24 21:21, 3F
推
06/24 21:30, , 4F
06/24 21:30, 4F
→
06/24 21:30, , 5F
06/24 21:30, 5F
感謝回覆!
to andrew43
你說的效果量effect size指的是OR嗎?對你舉的犯罪的例子好像有點感覺!
試著對應過來,意思是雖然有信心說此變數對購買哪種商品有影響,但影響程度不大?
...糟糕,解讀完覺得哪裡怪怪的,為什麼可以說有影響,又說影響不大啊?
這樣有信心的影響是什麼@@
權衡水準數的意思是?沒有權衡的話會造成問題嗎?
你這樣一提醒我才發現,我這個重要性很高的變數是連續變數!
沒有找到有計算連續變數的例子,不知道是否也可以這樣計算?
如果不行的話,這樣撇除掉連續變數,只算其他的是不是會有點問題呢
因為連續變數也在這個模型中,多少會影響到其他變數的係數吧
to imaltar
OR的信賴區間雖然很小[1.00006, 1.000767],但沒有包含1
我注意到另一個不顯著的變數,雖然OR=1,但信賴區間有橫跨1
所以這樣是指,這個變數(顯著的那個)還是有影響力,只是影響力超級小
增加一單位,機率只會增加0.006倍的意思嗎?
※ 編輯: shirley7483 (111.240.104.195), 06/24/2017 22:13:31
→
06/24 22:55, , 6F
06/24 22:55, 6F
→
06/24 22:56, , 7F
06/24 22:56, 7F
→
06/24 22:56, , 8F
06/24 22:56, 8F
→
06/24 22:57, , 9F
06/24 22:57, 9F
→
06/24 22:59, , 10F
06/24 22:59, 10F
→
06/24 22:59, , 11F
06/24 22:59, 11F
→
06/24 23:00, , 12F
06/24 23:00, 12F
→
06/24 23:02, , 13F
06/24 23:02, 13F
→
06/24 23:03, , 14F
06/24 23:03, 14F
推
06/24 23:47, , 15F
06/24 23:47, 15F
→
06/24 23:47, , 16F
06/24 23:47, 16F
推
06/25 01:37, , 17F
06/25 01:37, 17F
→
06/25 01:39, , 18F
06/25 01:39, 18F
能夠理解水準數不同會造成的影響!
在水準數多、各個係數最大值與最小值差距大的情況下,照此算法,重要性會被膨脹很多
查詢其他的相對重要性算法,發現同時衡量連續與類別變數的資料好少.....
找到一個方法是計算各個變數的卡方值,再加總計算百分比
(理解為做單一變數的迴歸,使用LRT的卡方值計算,不確定有無理解錯誤)
除了andrew43提到的水準數的問題之外,若是採用這個方法還會有其他疑慮嗎?
若有人知道其他算法,再拜託分享一下關鍵字讓我可以進一步查詢>"<
參考來源:https://goo.gl/jcQKq9
感謝Rhomboid提醒,之前都沒有注意到單位!
另外發現此連續變數中間有一大段間隔,想請問這個是否也是造成OR接近1的原因呢?
ex.價錢ranage從10~1000,但分布是10~100、500~1000,沒有100~500的樣本
※ 編輯: shirley7483 (111.240.93.111), 06/25/2017 12:59:56
推
06/25 13:53, , 19F
06/25 13:53, 19F
→
06/25 13:53, , 20F
06/25 13:53, 20F