Re: [問題] Logistic不僅只是要一組最佳解
在這報告一下目前的解法
從整個流程來看,有以下流程
1.單變量--NR1WAY無母數要過
2.共變數--REG的VIF要過
3.多變量--Logist的ROC要過
4.Out-of-Sample驗證---Bootstrapping要過
因為計算量真的太大了
目前的作法是每個流程都砍之外
另外就是變數分組
好處除了減少計算量之外,也可以避免多變量挑到變數全集中在某一類型的變數
以C(100,5)來說,如果分組
那麼就會有75,287,520 組,而且這還是變數最少的
如果分成五組,每組C(20,1)那麼變成20^5=3,200,000
-----
其實..現在VIF的計算就讓我受不了了
※ 引述《liton (歐吉桑留學生)》之銘言:
: 標題: [問題] Logistic不僅只是要一組最佳解
: 時間: Tue Aug 16 17:13:43 2011
: Logisics的Selection有None, Forward, Backward, Stepwise, Score
: 但是我要的是符合ROC達到某一定程度下
: 所有的候選模型
: 請問SAS有辦法產出嗎?
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc)
: ◆ From: 210.71.218.254
: 推 tew:應該是可以 08/16 18:46
: → gsuper:我用 stepwise 的方法 , 控制 model error 在 特定數值以下 08/17 01:52
: → gsuper:以AUC當performance , 挑出來的 model performance 在全排 08/17 01:53
: → gsuper:列組合的 0.1% 以下 , 用暴力法 coding 不太划算 08/17 01:54
: → gsuper:除非你要搞很貴的實驗 , 那就全部暴力給他下去吧 08/17 01:55
: → liton:樓上說的只會挑出一組AUC最好的 但這組後面的BOOTSTRAPPING 08/17 10:00
: → liton:以及後面的USER TEST可能過不了 08/17 10:01
: → liton:coding不是問題,麻煩的是計算,例如我100個變數中要取出 08/17 10:23
: → liton:10個變數的組合 COMBIN(100,10)...這要算到什麼時候? 08/17 10:24
: → gsuper:我說的就是這種暴力法 R指令 combn(100,10) , combn(100,9) 08/17 12:47
: → gsuper:combn(100,i) {i屬於 1~10} 08/17 12:48
: → gsuper:你可以試試看 Cohen`s d 這個指標, 計算時間比AUC少很多 08/17 12:51
: → gsuper:但兩者的關聯性在常態分佈下很高 08/17 12:51
: → gsuper:reclassification 類的應該也是要算很久 (NRI和IRI) 08/17 12:52
: → gsuper:因為 NRI 在資料處理上有點麻煩 , IRI要積分 (同AUC) 08/17 13:34
: → liton:目前我想到的方法是先篩變數,例如單變量P>5%的直接砍了 08/17 14:26
: → liton:VIF或COV不符某一特定標準的也砍了 08/17 14:27
: → liton:剩下的才進入Logistics 08/17 14:28
: → gsuper:我是這樣做 08/17 14:54
: → gsuper:1. 假設有 100 個 features , 先計算 AUC_FULL 08/17 14:55
: → gsuper:2. 先移除第一個 feature , 計算 99 markers 的 delta AUC 08/17 14:55
: → gsuper: delta_AUC = AUC_FULL - AUC_NESTED 08/17 14:57
: → gsuper:3. 將第一個放回去 , 把第二個拿掉 , 計算第二個 feature 08/17 14:58
: → gsuper: 的 delta_AUC 08/17 14:58
: → gsuper:算了....講不清楚 08/17 14:58
: → liton:你說的是技術性coding的問題,我說的是如何減少計算組數 08/17 15:01
: → liton:例如C(10,2),你還是得算組,我思考的是如何只要算5組 08/17 15:25
: → tew:要不要先將解釋變數先跑相關 如果有些便項相關高 08/18 13:20
: → tew:就從其中的變項挑最佳的 或者用因素分析縮減變項 08/18 13:21
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.167.169.87
→
08/20 07:46, , 1F
08/20 07:46, 1F
→
08/20 07:47, , 2F
08/20 07:47, 2F
→
08/20 07:48, , 3F
08/20 07:48, 3F
→
08/20 07:49, , 4F
08/20 07:49, 4F
→
08/20 07:50, , 5F
08/20 07:50, 5F
→
08/20 07:51, , 6F
08/20 07:51, 6F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):