[問題] 勝算比、相對重要性與顯著與否的解讀

看板Statistics作者shirley7483 (Shirley)時間8年前 (2017/06/24 19:58)推噓6(6推 0噓 14→)

留言20則, 3人參與討論串1/1

感謝之前板友的幫助，讓我可以順利解讀與建立多項式迴歸模型！但我又遇到新問題了，想再諮詢一下各位的專業意見>"< 目的：篩選變數尋找表現較好的模型前提背景：建立full model後，以顯著與否、加入變數前後R^2的變化來做變數篩選標準以此標準建立模型之後，在解讀時發現問題 1. 其中有個連續型變數，係數=0.00040673，p<0.05，OR=1 (實際為1.000406812) google得知 OR=1 表示此變數對疾病的發生不起作用套用在我的模型情境中，推測是表示此變數對選擇購買哪種商品沒有影響我不太懂的地方是，OR=1 但卻顯著，這是在"統計上"，此變數真的沒有影響的意思？連續型變數解釋成【若變數增加一單位，相較於reference group，選擇此商品的可能性會增加或減少xxx倍】 OR這麼接近1，依舊可以這樣解釋嗎？還是會直接解釋成此變數無影響？ 2. 透過estimate coefficient，手動計算了每個變數的relative importance 發現有一個變數，雖然不顯著，但relative importance卻是所有變數中第一高 (56%) 這應該如何解釋呢？不知道是否該把此變數拿掉，才能較好了解剩下的變數的相對重要性？ 3. 發生上述兩種情況，這兩個變數通常會怎麼處理呢？會拿掉還是繼續保留？若有需要其他資訊，提醒後我會盡速補上！先感謝各位的幫助：）備註：relative importance的計算參考 https://goo.gl/rJqBkY 第四頁的Exhibit9.1 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.240.104.195 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1498305524.A.009.html

推

06/24 21:21, , 1^F

06/24 21:21, 1^F

→

06/24 21:21, , 2^F

06/24 21:21, 2^F

推

06/24 21:21, , 3^F

06/24 21:21, 3^F

推

06/24 21:30, , 4^F

06/24 21:30, 4^F

→

06/24 21:30, , 5^F

06/24 21:30, 5^F

感謝回覆！ to andrew43 你說的效果量effect size指的是OR嗎？對你舉的犯罪的例子好像有點感覺！試著對應過來，意思是雖然有信心說此變數對購買哪種商品有影響，但影響程度不大？ ...糟糕，解讀完覺得哪裡怪怪的，為什麼可以說有影響，又說影響不大啊？這樣有信心的影響是什麼＠＠權衡水準數的意思是？沒有權衡的話會造成問題嗎？你這樣一提醒我才發現，我這個重要性很高的變數是連續變數！沒有找到有計算連續變數的例子，不知道是否也可以這樣計算？如果不行的話，這樣撇除掉連續變數，只算其他的是不是會有點問題呢因為連續變數也在這個模型中，多少會影響到其他變數的係數吧 to imaltar OR的信賴區間雖然很小[1.00006, 1.000767]，但沒有包含1 我注意到另一個不顯著的變數，雖然OR=1，但信賴區間有橫跨1 所以這樣是指，這個變數(顯著的那個)還是有影響力，只是影響力超級小增加一單位，機率只會增加0.006倍的意思嗎？ ※ 編輯: shirley7483 (111.240.104.195), 06/24/2017 22:13:31

→

06/24 22:55, , 6^F

06/24 22:55, 6^F

→

06/24 22:56, , 7^F

06/24 22:56, 7^F

→

06/24 22:56, , 8^F

06/24 22:56, 8^F

→

06/24 22:57, , 9^F

06/24 22:57, 9^F

→

06/24 22:59, , 10^F

06/24 22:59, 10^F

→

06/24 22:59, , 11^F

06/24 22:59, 11^F

→

06/24 23:00, , 12^F

06/24 23:00, 12^F

→

06/24 23:02, , 13^F

06/24 23:02, 13^F

→

06/24 23:03, , 14^F

06/24 23:03, 14^F

推

06/24 23:47, , 15^F

06/24 23:47, 15^F

→

06/24 23:47, , 16^F

06/24 23:47, 16^F

推

06/25 01:37, , 17^F

06/25 01:37, 17^F

→

06/25 01:39, , 18^F

06/25 01:39, 18^F

能夠理解水準數不同會造成的影響！在水準數多、各個係數最大值與最小值差距大的情況下，照此算法，重要性會被膨脹很多查詢其他的相對重要性算法，發現同時衡量連續與類別變數的資料好少..... 找到一個方法是計算各個變數的卡方值，再加總計算百分比（理解為做單一變數的迴歸，使用LRT的卡方值計算，不確定有無理解錯誤）除了andrew43提到的水準數的問題之外，若是採用這個方法還會有其他疑慮嗎？若有人知道其他算法，再拜託分享一下關鍵字讓我可以進一步查詢>"< 參考來源：https://goo.gl/jcQKq9 感謝Rhomboid提醒，之前都沒有注意到單位！另外發現此連續變數中間有一大段間隔，想請問這個是否也是造成OR接近1的原因呢？ ex.價錢ranage從10~1000，但分布是10~100、500~1000，沒有100~500的樣本 ※ 編輯: shirley7483 (111.240.93.111), 06/25/2017 12:59:56

推

06/25 13:53, , 19^F

06/25 13:53, 19^F

→

06/25 13:53, , 20^F

06/25 13:53, 20^F

‣ 返回看板[ Statistics ] 統計

‣ 更多 shirley7483 的文章

文章代碼(AID): #1PJbFq09 (Statistics)