Re: [問題] Logistic不僅只是要一組最佳解

看板Statistics作者liton (歐吉桑留學生)時間14年前 (2011/08/19 23:02)推噓0(0推 0噓 6→)

留言6則, 1人參與討論串2/2 (看更多)

在這報告一下目前的解法從整個流程來看,有以下流程 1.單變量--NR1WAY無母數要過 2.共變數--REG的VIF要過 3.多變量--Logist的ROC要過 4.Out-of-Sample驗證---Bootstrapping要過因為計算量真的太大了目前的作法是每個流程都砍之外另外就是變數分組好處除了減少計算量之外,也可以避免多變量挑到變數全集中在某一類型的變數以C(100,5)來說,如果分組那麼就會有75,287,520 組,而且這還是變數最少的如果分成五組,每組C(20,1)那麼變成20^5=3,200,000 ----- 其實..現在VIF的計算就讓我受不了了 ※ 引述《liton (歐吉桑留學生)》之銘言： : 標題: [問題] Logistic不僅只是要一組最佳解 : 時間: Tue Aug 16 17:13:43 2011 : Logisics的Selection有None, Forward, Backward, Stepwise, Score : 但是我要的是符合ROC達到某一定程度下 : 所有的候選模型 : 請問SAS有辦法產出嗎? : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc) : ◆ From: 210.71.218.254 : 推 tew:應該是可以 08/16 18:46 : → gsuper:我用 stepwise 的方法 , 控制 model error 在特定數值以下 08/17 01:52 : → gsuper:以AUC當performance , 挑出來的 model performance 在全排 08/17 01:53 : → gsuper:列組合的 0.1% 以下 , 用暴力法 coding 不太划算 08/17 01:54 : → gsuper:除非你要搞很貴的實驗 , 那就全部暴力給他下去吧 08/17 01:55 : → liton:樓上說的只會挑出一組AUC最好的但這組後面的BOOTSTRAPPING 08/17 10:00 : → liton:以及後面的USER TEST可能過不了 08/17 10:01 : → liton:coding不是問題,麻煩的是計算,例如我100個變數中要取出 08/17 10:23 : → liton:10個變數的組合 COMBIN(100,10)...這要算到什麼時候? 08/17 10:24 : → gsuper:我說的就是這種暴力法 R指令 combn(100,10) , combn(100,9) 08/17 12:47 : → gsuper:combn(100,i) {i屬於 1~10} 08/17 12:48 : → gsuper:你可以試試看 Cohen`s d 這個指標, 計算時間比AUC少很多 08/17 12:51 : → gsuper:但兩者的關聯性在常態分佈下很高 08/17 12:51 : → gsuper:reclassification 類的應該也是要算很久 (NRI和IRI) 08/17 12:52 : → gsuper:因為 NRI 在資料處理上有點麻煩 , IRI要積分 (同AUC) 08/17 13:34 : → liton:目前我想到的方法是先篩變數,例如單變量P>5%的直接砍了 08/17 14:26 : → liton:VIF或COV不符某一特定標準的也砍了 08/17 14:27 : → liton:剩下的才進入Logistics 08/17 14:28 : → gsuper:我是這樣做 08/17 14:54 : → gsuper:1. 假設有 100 個 features , 先計算 AUC_FULL 08/17 14:55 : → gsuper:2. 先移除第一個 feature , 計算 99 markers 的 delta AUC 08/17 14:55 : → gsuper: delta_AUC = AUC_FULL - AUC_NESTED 08/17 14:57 : → gsuper:3. 將第一個放回去 , 把第二個拿掉 , 計算第二個 feature 08/17 14:58 : → gsuper: 的 delta_AUC 08/17 14:58 : → gsuper:算了....講不清楚 08/17 14:58 : → liton:你說的是技術性coding的問題,我說的是如何減少計算組數 08/17 15:01 : → liton:例如C(10,2),你還是得算組,我思考的是如何只要算5組 08/17 15:25 : → tew:要不要先將解釋變數先跑相關如果有些便項相關高 08/18 13:20 : → tew:就從其中的變項挑最佳的或者用因素分析縮減變項 08/18 13:21 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.167.169.87

→

ADORIAN

08/20 07:46, , 1^F

08/20 07:46, 1^F

→

ADORIAN

08/20 07:47, , 2^F

08/20 07:47, 2^F

→

ADORIAN

08/20 07:48, , 3^F

08/20 07:48, 3^F