[問題] 隨機森林模型問題請益

看板DataScience作者 (Thomas)時間3年前 (2020/06/28 13:46), 編輯推噓4(4019)
留言23則, 7人參與, 3年前最新討論串1/1
各位大大好 小弟是自學的新手,今天研究python sklearn的隨機森林時,使用jupyter 練習iris的資 料範例,但產生以下的疑問,想請教板上大大的指點: 1. 隨機森林模型accuracy的選擇: 隨機森林因為抽樣的關係,每次跑出的accuracy數值都會不相同(ex., 0.91, 0.95, 0.9 8),一般都是選擇數值最高時產生的模型嗎? 2. 承第1點,訓練好的模型如何存取? 當我有新的資料進來時,我必須每次jupyter重跑一次所有程序(建立模型clf),最後將新 樣本帶入clf跑出預測嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.238.59.57 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1593323210.A.3A1.html

06/28 16:50, 3年前 , 1F
1. 你可以選擇最好的模型或是把所有隨機抽樣訓練的模
06/28 16:50, 1F

06/28 16:50, 3年前 , 2F
型做ensemble
06/28 16:50, 2F

06/28 16:50, 3年前 , 3F
2.用joblib或是pickle freeze整個模塊參數做保存,一般
06/28 16:50, 3F

06/28 16:50, 3年前 , 4F
而已joblib的performance比較好
06/28 16:50, 4F

06/28 16:53, 3年前 , 5F
感謝大大的指點
06/28 16:53, 5F

06/28 18:31, 3年前 , 6F
control random state
06/28 18:31, 6F

06/29 16:19, 3年前 , 7F
工研院人工智慧課程推薦https://reurl.cc/4RDRaK
06/29 16:19, 7F

06/29 18:07, 3年前 , 8F
請教s大,joblib或是pickle 應該都只是存參數的方法吧
06/29 18:07, 8F

06/29 18:07, 3年前 , 9F
。如果參數一樣的話為什麼他的結果會有差啊
06/29 18:07, 9F

06/29 19:07, 3年前 , 10F
joblib有針對numpy array做數據緩存跟壓縮的優化,儲存
06/29 19:07, 10F

06/29 19:07, 3年前 , 11F
方式不太一樣,pickle是把整個類對象序列化後保存,在
06/29 19:07, 11F

06/29 19:07, 3年前 , 12F
讀取跟儲存上loading會比較久,而且如果緩存序列太大會
06/29 19:07, 12F

06/29 19:07, 3年前 , 13F
有memory error的問題,相反joblib則有對此優化。如果你
06/29 19:07, 13F

06/29 19:08, 3年前 , 14F
是要用joblib存,pickle讀基本上數據儲存方法不同是沒
06/29 19:08, 14F

06/29 19:08, 3年前 , 15F
辦法這樣做的,不曉得有沒有get到你的問題
06/29 19:08, 15F

06/29 20:09, 3年前 , 16F
瞭解,感謝您的回答
06/29 20:09, 16F

06/30 17:47, 3年前 , 17F
1.test分數高 2.roc去選 3.看你分類需求
06/30 17:47, 17F

06/30 21:48, 3年前 , 18F
檢查一下你的rf,應該是過擬合
06/30 21:48, 18F

06/30 21:51, 3年前 , 19F
通常是randomsearchcv找出best_est(最佳模型).pre
06/30 21:51, 19F

06/30 21:51, 3年前 , 20F
dict一下代入特徵
06/30 21:51, 20F

06/30 21:57, 3年前 , 21F
精度召回率都是用模型預測的y_pred比對label來判斷
06/30 21:57, 21F

06/30 21:57, 3年前 , 22F
你的模型表現好不好,rf非常容易過擬合,需要做好預
06/30 21:57, 22F

06/30 21:57, 3年前 , 23F
剪枝,這點sklearn可以設置
06/30 21:57, 23F
文章代碼(AID): #1U-2xAEX (DataScience)