[問題] 高維資料分類問題

看板Statistics作者 (無名氏)時間11年前 (2014/02/26 00:42), 編輯推噓0(008)
留言8則, 2人參與, 最新討論串1/1
各位大大好 小弟現在在研究一個二元分類問題,正常與不正常 受試者樣本數是118,原始資料維度上萬 我的執行步驟大約分成三個 第一步:使用MPCA降維,降維之後的維度是 110 ,累積解釋變異比例有80% 所以每筆資料有110個變數(連續) 第二步:由於110個變數仍太多,所以進行變數塞選 先將118筆資料分成訓練集(80筆)與測試集(38筆) 這裡以訓練集進行變數塞選,使用Wilks Lambda Statistic來選取 在α=0.05下,會選出約10個顯著變數(因訓練集為隨機挑選,所以每次挑選 結果都不太一樣) 第三步:以第二步所挑出的變數對測試集進行分類,分類器有LDA,QDA,SVM(support vector machine),重複第二步與第三步多次後取判對率的平均值。 結果不論是哪個分類器,結果都只有50%~60%,顯示對於未知的測試集,分類效果不好 想請問各位大大是不是有哪些地方需要改善還是有問題? 第一次發問,有少打什麼的還請多多指教 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 219.69.111.54

02/26 00:50, , 1F
就算不降維,判別率最高能多少?不理想的話降維幫助有限
02/26 00:50, 1F

02/26 01:26, , 2F
因為原始資料維度是16384,所以想說先降維才能處理
02/26 01:26, 2F

02/26 03:31, , 3F
我是指說不定理想的判別率本來就可能不高。
02/26 03:31, 3F

02/26 03:32, , 4F
所以降維後50-60%的正確率可能是極限了。
02/26 03:32, 4F

02/26 03:32, , 5F
我是指,說不定降維前的判別率本來就不高。
02/26 03:32, 5F

02/26 03:33, , 6F
所以降維後50-60%的正確率可能是極限了。
02/26 03:33, 6F

02/26 03:33, , 7F
那你又何以確定你可以有更好的降維方式?
02/26 03:33, 7F

02/26 18:03, , 8F
恩~謝謝~看來要換個資料看看
02/26 18:03, 8F
文章代碼(AID): #1J3CVig7 (Statistics)