Re: [問題] Logistic不僅只是要一組最佳解

看板Statistics作者 (歐吉桑留學生)時間12年前 (2011/08/19 23:02), 編輯推噓0(006)
留言6則, 1人參與, 最新討論串2/2 (看更多)
在這報告一下目前的解法 從整個流程來看,有以下流程 1.單變量--NR1WAY無母數要過 2.共變數--REG的VIF要過 3.多變量--Logist的ROC要過 4.Out-of-Sample驗證---Bootstrapping要過 因為計算量真的太大了 目前的作法是每個流程都砍之外 另外就是變數分組 好處除了減少計算量之外,也可以避免多變量挑到變數全集中在某一類型的變數 以C(100,5)來說,如果分組 那麼就會有75,287,520 組,而且這還是變數最少的 如果分成五組,每組C(20,1)那麼變成20^5=3,200,000 ----- 其實..現在VIF的計算就讓我受不了了 ※ 引述《liton (歐吉桑留學生)》之銘言: : 標題: [問題] Logistic不僅只是要一組最佳解 : 時間: Tue Aug 16 17:13:43 2011 : Logisics的Selection有None, Forward, Backward, Stepwise, Score : 但是我要的是符合ROC達到某一定程度下 : 所有的候選模型 : 請問SAS有辦法產出嗎? : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc) : ◆ From: 210.71.218.254 : 推 tew:應該是可以 08/16 18:46 : → gsuper:我用 stepwise 的方法 , 控制 model error 在 特定數值以下 08/17 01:52 : → gsuper:以AUC當performance , 挑出來的 model performance 在全排 08/17 01:53 : → gsuper:列組合的 0.1% 以下 , 用暴力法 coding 不太划算 08/17 01:54 : → gsuper:除非你要搞很貴的實驗 , 那就全部暴力給他下去吧 08/17 01:55 : → liton:樓上說的只會挑出一組AUC最好的 但這組後面的BOOTSTRAPPING 08/17 10:00 : → liton:以及後面的USER TEST可能過不了 08/17 10:01 : → liton:coding不是問題,麻煩的是計算,例如我100個變數中要取出 08/17 10:23 : → liton:10個變數的組合 COMBIN(100,10)...這要算到什麼時候? 08/17 10:24 : → gsuper:我說的就是這種暴力法 R指令 combn(100,10) , combn(100,9) 08/17 12:47 : → gsuper:combn(100,i) {i屬於 1~10} 08/17 12:48 : → gsuper:你可以試試看 Cohen`s d 這個指標, 計算時間比AUC少很多 08/17 12:51 : → gsuper:但兩者的關聯性在常態分佈下很高 08/17 12:51 : → gsuper:reclassification 類的應該也是要算很久 (NRI和IRI) 08/17 12:52 : → gsuper:因為 NRI 在資料處理上有點麻煩 , IRI要積分 (同AUC) 08/17 13:34 : → liton:目前我想到的方法是先篩變數,例如單變量P>5%的直接砍了 08/17 14:26 : → liton:VIF或COV不符某一特定標準的也砍了 08/17 14:27 : → liton:剩下的才進入Logistics 08/17 14:28 : → gsuper:我是這樣做 08/17 14:54 : → gsuper:1. 假設有 100 個 features , 先計算 AUC_FULL 08/17 14:55 : → gsuper:2. 先移除第一個 feature , 計算 99 markers 的 delta AUC 08/17 14:55 : → gsuper: delta_AUC = AUC_FULL - AUC_NESTED 08/17 14:57 : → gsuper:3. 將第一個放回去 , 把第二個拿掉 , 計算第二個 feature 08/17 14:58 : → gsuper: 的 delta_AUC 08/17 14:58 : → gsuper:算了....講不清楚 08/17 14:58 : → liton:你說的是技術性coding的問題,我說的是如何減少計算組數 08/17 15:01 : → liton:例如C(10,2),你還是得算組,我思考的是如何只要算5組 08/17 15:25 : → tew:要不要先將解釋變數先跑相關 如果有些便項相關高 08/18 13:20 : → tew:就從其中的變項挑最佳的 或者用因素分析縮減變項 08/18 13:21 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.167.169.87

08/20 07:46, , 1F
很難找到一個 model selection 的方法, 其結果可以符合各
08/20 07:46, 1F

08/20 07:47, , 2F
個 criteria (你所提的流程).
08/20 07:47, 2F

08/20 07:48, , 3F
如果有的話, 我個人認為這應該不是個統計方法, 反而像是
08/20 07:48, 3F

08/20 07:49, , 4F
在求一組最佳的解 (比較像是在做 data mining)
08/20 07:49, 4F

08/20 07:50, , 5F
這樣一來, 你所謂的 test 能不能過也不是很重要, 畢竟你要
08/20 07:50, 5F

08/20 07:51, , 6F
的是最佳解, 不是個統計問題.
08/20 07:51, 6F
文章代碼(AID): #1EJdhojm (Statistics)
文章代碼(AID): #1EJdhojm (Statistics)