[問題] 決策樹的一個小疑問

看板Statistics作者 (擦肩而過的歲月)時間9年前 (2016/07/18 23:15), 編輯推噓2(207)
留言9則, 4人參與, 最新討論串1/1
大家好, 我想請問一些關於決策樹的小疑問, 假如現在我有一筆資料, 例如紀錄了100人的血型 身高 體重 收入 等等10個屬性值, 那如果今天我想要用血型來當作我的information gain 或是 gini gain的計算目標, 以此為依據來產生決策樹, 是否會出現有屬性被重複拿來當作分支的的條件篩選? 其實我是在學習使用 python的sklearn時候, 看到他裡面提供的範例如: http://scikit-learn.org/stable/modules/tree.html#classification 他得到的決策樹中,可以看到有些屬性被重複拿來使用, 這樣是可行的囉? 如果用語不太精確的話請見諒. -- 感謝幫忙:) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.219.238 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1468854907.A.D11.html

07/19 13:25, , 1F
屬性的型態是連續型的話 常常都會重複
07/19 13:25, 1F

07/19 21:49, , 2F
決策樹的特性是一次只用一個變數將樣本分割(分支),因
07/19 21:49, 2F

07/19 21:49, , 3F
分支內樣本改變了,是有可能再選到用過的變數,不過建
07/19 21:49, 3F

07/19 21:49, , 4F
議要看validate 的預測能力有沒有掉很多
07/19 21:49, 4F

07/19 22:11, , 5F
想請問要如何看'validate'的預測能力? 我不是很明白這句
07/19 22:11, 5F

07/20 03:16, , 6F
例如把資料分成訓練集和驗證集幾次,即交叉驗證
07/20 03:16, 6F

07/20 09:08, , 7F
因目的是未來套用的準確度高,所以用非訓練樣本來看看這
07/20 09:08, 7F

07/20 09:08, , 8F
個現象是不是還存在,避免過度訓練
07/20 09:08, 8F

07/20 21:43, , 9F
喔喔! 那我有點懂了 感謝大家 :D
07/20 21:43, 9F
文章代碼(AID): #1NZF9xqH (Statistics)