[問題] Logistic不僅只是要一組最佳解

看板Statistics作者 (歐吉桑留學生)時間12年前 (2011/08/16 17:13), 編輯推噓2(2034)
留言36則, 3人參與, 最新討論串1/2 (看更多)
Logisics的Selection有None, Forward, Backward, Stepwise, Score 但是我要的是符合ROC達到某一定程度下 所有的候選模型 請問SAS有辦法產出嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 210.71.218.254

08/16 18:46, , 1F
應該是可以
08/16 18:46, 1F

08/17 01:52, , 2F
我用 stepwise 的方法 , 控制 model error 在 特定數值以下
08/17 01:52, 2F

08/17 01:53, , 3F
以AUC當performance , 挑出來的 model performance 在全排
08/17 01:53, 3F

08/17 01:54, , 4F
列組合的 0.1% 以下 , 用暴力法 coding 不太划算
08/17 01:54, 4F

08/17 01:55, , 5F
除非你要搞很貴的實驗 , 那就全部暴力給他下去吧
08/17 01:55, 5F

08/17 10:00, , 6F
樓上說的只會挑出一組AUC最好的 但這組後面的BOOTSTRAPPING
08/17 10:00, 6F

08/17 10:01, , 7F
以及後面的USER TEST可能過不了
08/17 10:01, 7F

08/17 10:23, , 8F
coding不是問題,麻煩的是計算,例如我100個變數中要取出
08/17 10:23, 8F

08/17 10:24, , 9F
10個變數的組合 COMBIN(100,10)...這要算到什麼時候?
08/17 10:24, 9F

08/17 12:47, , 10F
我說的就是這種暴力法 R指令 combn(100,10) , combn(100,9)
08/17 12:47, 10F

08/17 12:48, , 11F
combn(100,i) {i屬於 1~10}
08/17 12:48, 11F

08/17 12:51, , 12F
你可以試試看 Cohen`s d 這個指標, 計算時間比AUC少很多
08/17 12:51, 12F

08/17 12:51, , 13F
但兩者的關聯性在常態分佈下很高
08/17 12:51, 13F

08/17 12:52, , 14F
reclassification 類的應該也是要算很久 (NRI和IRI)
08/17 12:52, 14F

08/17 13:34, , 15F
因為 NRI 在資料處理上有點麻煩 , IRI要積分 (同AUC)
08/17 13:34, 15F

08/17 14:26, , 16F
目前我想到的方法是先篩變數,例如單變量P>5%的直接砍了
08/17 14:26, 16F

08/17 14:27, , 17F
VIF或COV不符某一特定標準的也砍了
08/17 14:27, 17F

08/17 14:28, , 18F
剩下的才進入Logistics
08/17 14:28, 18F

08/17 14:54, , 19F
我是這樣做
08/17 14:54, 19F

08/17 14:55, , 20F
1. 假設有 100 個 features , 先計算 AUC_FULL
08/17 14:55, 20F

08/17 14:55, , 21F
2. 先移除第一個 feature , 計算 99 markers 的 delta AUC
08/17 14:55, 21F

08/17 14:57, , 22F
delta_AUC = AUC_FULL - AUC_NESTED
08/17 14:57, 22F

08/17 14:58, , 23F
3. 將第一個放回去 , 把第二個拿掉 , 計算第二個 feature
08/17 14:58, 23F

08/17 14:58, , 24F
的 delta_AUC
08/17 14:58, 24F

08/17 14:58, , 25F
算了....講不清楚
08/17 14:58, 25F

08/17 15:01, , 26F
你說的是技術性coding的問題,我說的是如何減少計算組數
08/17 15:01, 26F

08/17 15:25, , 27F
例如C(10,2),你還是得算組,我思考的是如何只要算5組
08/17 15:25, 27F

08/18 13:20, , 28F
要不要先將解釋變數先跑相關 如果有些便項相關高
08/18 13:20, 28F

08/18 13:21, , 29F
就從其中的變項挑最佳的 或者用因素分析縮減變項
08/18 13:21, 29F

09/05 04:23, , 30F
我還是覺得有在回答你的問題 你要的是 heuristic feature
09/05 04:23, 30F

09/05 04:23, , 31F
selection 的方法 , 等於說在N組解裏面 , 挑出前 1/1000
09/05 04:23, 31F

09/05 04:24, , 32F
然後提供你的老闆做選擇 (可能是跟我一樣 不被完全信任)
09/05 04:24, 32F

09/05 04:24, , 33F
所以要看暴力法的結果 但暴力法又跑不完
09/05 04:24, 33F

09/05 16:26, , 34F
基本就是要把一些不可能OK的結果事先排除不計算
09/05 16:26, 34F

09/05 16:27, , 35F
所以我才提到 effect size 比 AUC 要省時間
09/05 16:27, 35F

09/05 16:27, , 36F
事前把各種組合的 Cohen`s d 算出來 , 把太離譜的先拿掉
09/05 16:27, 36F
文章代碼(AID): #1EIZJA6d (Statistics)
文章代碼(AID): #1EIZJA6d (Statistics)