[問題] 隨機森林畫決策樹
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
請把以下不需要的部份刪除
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
如題
最近在用randomForest這個package做分類預測 y是binary variable
跑出結果後用getTree抓其中一顆決策樹出來
輸出大概就是
left daughter right daughter split var split point status prediction
這樣
然後有幾點想請教版友:
1. getTree的split pint判斷 stack overflow有人說
若split point是2.5 則<=2.5往左走 >2.5往右走
但是若split var是factor的話呢?
像是三個levels "學生" "老師" "教官"
若直接這樣getTree的話 split point那會變成亂數 ex. 3
所以我後來試著給他數字 學生為1 老師為2 教官為3
split point變成2.5 1.5之類
但在解釋上說不過去 也無法套用stack overflow裡的人的邏輯
若split var是年齡區間還可以解釋
例如20歲以下為1 20~30歲是2 30歲以上是3
split point為2.5時 我還能理解為<=2.5是30歲以下 >2.5是30歲以上
當然 這是現階段的理解
ex.
set.seed(100)
data <- data.frame(y=sample(c("好", "不好"), 100, replace=TRUE),
x1=sample(c("學生", "老師", "教官"), 100, replace=TRUE),
x2=sample(c("20歲以下", "20~30歲", "30歲以上"), 100, replace=TRUE)
)
library(randomForest)
rf <- randomForest(y~., data=data, ntree=10, proximity=TRUE)
tree <- getTree(rf, labelVar=TRUE)
然後tree的結果就如上面所述
請問我究竟該如何理解這個結果呢?
(2015/07/25 09:39)
補充:根據?getTree得到split point的解釋是
x1有3個類別 split point若為3 則是指(1,1,0)
因為1*2^0+1*2^1+0*2^3=3
然後學生和老師都歸類到左邊
所以判斷依據是"是否為教官" 否就丟到左邊這樣嗎?
2. 最後是畫圖的問題
我在網路上找到一位網友自己寫了一個函式叫to.dendrogram
程式附在下面
但是畫出來的決策樹只有split point的名稱 ex.學生 教師
可是我希望把split point也畫上去 ex. <=2.5, <=1.5等
目前知道的繪圖有幾個package:rpart, tree之類
但那都要用rpart或ctree來跑"一顆"決策樹
然後再用package內的繪圖函式畫圖
但是跟隨機森林的那10顆(ntree=10)決策數是不一樣的吧!
不要求很精美的圖 主要是想修改網友的to.dendrogram的code
弄成有split point的結果
但是attr(rval, "edgetext")那邊一直搞不定@@
或是這裡有大神能提供更好的解法
感激不盡!!
總結一下問題
1. randomForest中getTree的split var為factor時 split point該如何判斷?
2. to.dendrogram的圖中 如何修改code才能把split point放上去?
這些問題困擾小弟好久了~"~
再次感謝
[程式範例]:
http://pastie.org/10311492
[系統環境]:
R version 3.2.1 (2015-06-18)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 8 x64 (build 9200)
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950
[2] LC_CTYPE=Chinese (Traditional)_Taiwan.950
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.950
[4] LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.950
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] tree_1.0-36 data.table_1.9.4 randomForest_4.6-10
loaded via a namespace (and not attached):
[1] magrittr_1.5 plyr_1.8.3 tools_3.2.1 reshape2_1.4.1 Rcpp_0.11.6
[6] stringi_0.5-5 stringr_1.0.0 chron_2.3-47
[關鍵字]:
randomForest 隨機森林 getTree
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.215.230
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1437830114.A.120.html
※ 編輯: SFMAndroid (36.229.215.230), 07/25/2015 21:15:34
※ 編輯: SFMAndroid (36.229.215.230), 07/25/2015 21:24:00
※ 編輯: SFMAndroid (36.229.215.230), 07/25/2015 21:26:49
※ 編輯: SFMAndroid (36.229.215.230), 07/25/2015 21:37:25
推
07/25 21:35, , 1F
07/25 21:35, 1F
→
07/25 21:38, , 2F
07/25 21:38, 2F
→
07/25 21:38, , 3F
07/25 21:38, 3F
※ 編輯: SFMAndroid (36.229.215.230), 07/25/2015 21:40:34
→
07/25 21:41, , 4F
07/25 21:41, 4F
→
07/25 21:42, , 5F
07/25 21:42, 5F
→
07/25 21:43, , 6F
07/25 21:43, 6F
→
07/25 21:43, , 7F
07/25 21:43, 7F
→
07/25 21:44, , 8F
07/25 21:44, 8F
→
07/25 21:44, , 9F
07/25 21:44, 9F
→
07/25 21:44, , 10F
07/25 21:44, 10F
※ 編輯: SFMAndroid (36.229.215.230), 07/25/2015 21:46:32
→
07/25 21:46, , 11F
07/25 21:46, 11F
→
07/25 21:50, , 12F
07/25 21:50, 12F
→
07/25 21:50, , 13F
07/25 21:50, 13F
→
07/25 21:50, , 14F
07/25 21:50, 14F
→
07/25 21:51, , 15F
07/25 21:51, 15F
→
07/25 21:52, , 16F
07/25 21:52, 16F
→
07/25 21:53, , 17F
07/25 21:53, 17F
→
07/25 21:54, , 18F
07/25 21:54, 18F
→
07/25 21:54, , 19F
07/25 21:54, 19F
→
07/25 21:55, , 20F
07/25 21:55, 20F
→
07/25 21:55, , 21F
07/25 21:55, 21F
→
07/25 21:55, , 22F
07/25 21:55, 22F
→
07/25 21:56, , 23F
07/25 21:56, 23F
→
07/25 21:57, , 24F
07/25 21:57, 24F
→
07/25 21:57, , 25F
07/25 21:57, 25F
→
07/25 21:58, , 26F
07/25 21:58, 26F
→
07/25 22:00, , 27F
07/25 22:00, 27F
→
07/25 22:03, , 28F
07/25 22:03, 28F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 3 篇):
問題
1
28