[問題]各位大大想請問data anaylsis的一些問題

看板Python作者lance5487 ( )時間6年前 (2018/03/11 09:59)推噓0(0推 0噓 16→)

留言16則, 2人參與討論串1/1

各位大大好：小的最近參加一個比賽，但目前結果卡住中，不知道該怎麼進行下去，同時也有一些疑問在心中，希望各位大大能幫我解惑QQ ex1:怎麼確認overfitting的回合數? 附上做完cross validation兩張圖的結果，第一張圖為AUC的結果，第二張圖為標準差 (藍色為training-set，綠色為validation-set的結果) 第一張圖：https://imgur.com/9HRjStj

第二張圖: https://imgur.com/a/O5jrA 另外我覺得也有一點蠻奇怪的:照理說training-set的error已經1.0了，為什麼validation set的分數還在持續上升中?我是用xgboost的cv套件，跟這個會有關係嗎? ex2:feature selection該怎麼做? 另外一件事是我training的資料量大約五萬多筆，目前使用的feature數目是一千多個看起來會有維度詛咒的問題，但我若把維度下降至一百多維後再重新Training，但結果似乎並不會比較好?如果我的維度下降得更多，結果似乎會變得稍差@@ 想請問這樣是我的feature selection沒有做好嗎? ex3:stacking的結果沒有比較好我把 extraTree 、RandomForest、xgboost做stacking後，但結果似乎沒有比較好? 不知道原因是什麼?另外，想請問一件事，我stacking之前使用的所有演算法的參數應該要先tune完嗎?如果把所有參數tune完後，再做Stacking，結果真的會比之前還好嗎? 感覺我現在做的結果應該有盲點，但小弟弱弱的，不知道忽略了什麼? 請各位大大指點迷津，感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.196.203 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520733590.A.BAF.html

→

f496328mm

03/11 11:46, 6年前 , 1^F

03/11 11:46, 1^F

→

f496328mm

03/11 11:47, 6年前 , 2^F

03/11 11:47, 2^F

→

f496328mm

03/11 11:47, 6年前 , 3^F

03/11 11:47, 3^F