[問題] 高維資料分類問題
各位大大好
小弟現在在研究一個二元分類問題,正常與不正常
受試者樣本數是118,原始資料維度上萬
我的執行步驟大約分成三個
第一步:使用MPCA降維,降維之後的維度是 110 ,累積解釋變異比例有80%
所以每筆資料有110個變數(連續)
第二步:由於110個變數仍太多,所以進行變數塞選
先將118筆資料分成訓練集(80筆)與測試集(38筆)
這裡以訓練集進行變數塞選,使用Wilks Lambda Statistic來選取
在α=0.05下,會選出約10個顯著變數(因訓練集為隨機挑選,所以每次挑選
結果都不太一樣)
第三步:以第二步所挑出的變數對測試集進行分類,分類器有LDA,QDA,SVM(support vector
machine),重複第二步與第三步多次後取判對率的平均值。
結果不論是哪個分類器,結果都只有50%~60%,顯示對於未知的測試集,分類效果不好
想請問各位大大是不是有哪些地方需要改善還是有問題?
第一次發問,有少打什麼的還請多多指教
謝謝大家
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 219.69.111.54
→
02/26 00:50, , 1F
02/26 00:50, 1F
→
02/26 01:26, , 2F
02/26 01:26, 2F
→
02/26 03:31, , 3F
02/26 03:31, 3F
→
02/26 03:32, , 4F
02/26 03:32, 4F
→
02/26 03:32, , 5F
02/26 03:32, 5F
→
02/26 03:33, , 6F
02/26 03:33, 6F
→
02/26 03:33, , 7F
02/26 03:33, 7F
→
02/26 18:03, , 8F
02/26 18:03, 8F