[問題] 請益決策樹sample size的問題
如果是跟統計軟體有關請重發文章,使用程式做為分類。
請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。
為避免版面混亂,請勿手動置底問題,擅用E做檔案編輯
各位好, 目前我現在分析的資料形態是,
總個案數約60人, dependent variable 為有病沒病, independent variable
有類別變項及連續變項, 使用的演算法是 C4.5 (Quinlan, 1993),
因為有多個independent variable (連續)都可以將這60人正確分類有病沒病
(accuracy= 100%), 因此我發現會根據我丟自變項的順序, 決定我的決策樹圖形,
舉例來說自變項1-3 皆可以正確分類, 若我將自變項1放在第一個位置,
則決策樹圖形根結點為自變項1, 反之, 若我將自變項3放第一個位置,
根結點則為自變項3, 我不清楚這樣的狀況是否就是overfitting ?
或者我的直覺反應是個案數太少, 但網路上搜尋後似乎並沒有討論到,
樣本數至少多少, 才適合用decision tree這樣的方法來分類。
非常感謝看完我的問題。
software: Sipina
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.9.200
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1443165460.A.5AF.html
→
09/25 16:04, , 1F
09/25 16:04, 1F
→
09/26 01:24, , 2F
09/26 01:24, 2F