[問題] xgboost 在 python 與 r 上的差異

看板R_Language作者 (123)時間7年前 (2017/05/12 01:17), 7年前編輯推噓2(2013)
留言15則, 5人參與, 最新討論串1/1
文章分類提示: - 問題: 當你想要問問題時,請使用這個類別。 建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。 [問題類型]: 意見調查(我對R 有個很棒的想法,想問問大家的意見) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 最近發現 xgboost 在 R 與 python 上好像不太一樣,python的好像比較好? 所以拿 iris data 進行測試 python http://imgur.com/Z9qB7B3
R http://imgur.com/bu5RN3D
參數都設一樣, 發現 python 的表現比較好,1 次 vs 7 次 而且 python 做出的 model 比較好, 在 best_iteration 上也有差異, 所以 python 的 xgboost 比較快也比較強? ------------------------------------------------------ 單純在 iris data 上就有差異,實際做分析時,差異只會更大, 想問問各位,是我code有錯,還是真的有差異?? ps: seed 可能不同,但是不應該影響這麼多 [程式範例]: 程式碼可貼於以下網站: [環境敘述]: XGB 在 R 與 PYTHON 上版本都是 0.6 [關鍵字]: -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.80.21.159 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1494523058.A.AD5.html ※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:19:08 ※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:27:10

05/12 08:22, , 1F
對結果有興趣,如果覺得seed可能產生影響,是否直接多
05/12 08:22, 1F

05/12 08:22, , 2F
做幾次? 減輕隨機誤差,反正iris data set也不大
05/12 08:22, 2F

05/12 09:14, , 3F
實際上做過多次,甚至其它data,一樣發生相同問題,應
05/12 09:14, 3F

05/12 09:14, , 4F
該跟seed無關
05/12 09:14, 4F

05/12 09:22, , 5F
您的意思是做過多次python的結果都顯著優於r的版本?
05/12 09:22, 5F

05/12 11:12, , 6F
YES 特別在KAGGLE上 幾乎大家都用 python
05/12 11:12, 6F

05/12 11:12, , 7F
實際上我用 R 去重現對方的 python 效果也比較差
05/12 11:12, 7F

05/12 11:13, , 8F
可能是因為這個原因 所以比較少人用 R
05/12 11:13, 8F

05/12 11:14, , 9F
而且我有google找過 其他人也有相同的疑問
05/12 11:14, 9F

05/12 11:15, , 10F
我認為不太可能因為種子 產生這麼大的區別
05/12 11:15, 10F

05/12 11:15, , 11F
目前不知道原因 只好先轉用PYTHON去train model
05/12 11:15, 11F

05/12 11:39, , 12F
何不直接去問DMLC?
05/12 11:39, 12F

05/12 12:45, , 13F
已經問了 等待回應
05/12 12:45, 13F

05/21 23:32, , 14F
有隨機性...
05/21 23:32, 14F

05/23 15:56, , 15F
直接被close了
05/23 15:56, 15F
文章代碼(AID): #1P59oohL (R_Language)