[問題] 有關分類研究中 sample數與特徵數比例的問題
請問一下一個研究上的問題,對我的論文還蠻重要的
若是我今天實驗的病人 sample 只有 69 人 分成八類
然後我擷取特徵約使用100個種
並將特徵值輸入 classifier 去 learning 出一個 decision tree
驗證方法為10-fold cross validation
分類成果為70%的 classification precision
但學長值疑特徵值與 sample 數比例不合理,
特徵值: sample比率約為 7:10
學長說按照 統計理論,sample 比 特徵數量要大於 5:1的比率
所以這樣的70% classification precision 實驗結果是沒有意義的
我想問一下在統計上來說 sample數量 5:1 是建議值 雖然不符合此比率
實驗結果還是對的
還是說只要超過這個數值太多
learning 出的 decision tree 就是沒有意義的
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.164.183