[問題]各位大大想請問data anaylsis的一些問題
各位大大好: 小的最近參加一個比賽,但目前結果卡住中,不知道該怎麼進行下去,
同時也有一些疑問在心中,希望各位大大能幫我解惑QQ
ex1:怎麼確認overfitting的回合數?
附上做完cross validation兩張圖的結果,第一張圖為AUC的結果,第二張圖為標準差
(藍色為training-set,綠色為validation-set的結果)
第一張圖:https://imgur.com/9HRjStj
第二張圖: https://imgur.com/a/O5jrA
另外我覺得也有一點蠻奇怪的:照理說training-set的error已經1.0了,為什麼validation
set的分數還在持續上升中?我是用xgboost的cv套件,跟這個會有關係嗎?
ex2:feature selection該怎麼做?
另外一件事是我training的資料量大約五萬多筆,目前使用的feature數目是一千多個
看起來會有維度詛咒的問題,但我若把維度下降至一百多維後再重新Training,
但結果似乎並不會比較好?如果我的維度下降得更多,結果似乎會變得稍差@@
想請問這樣是我的feature selection沒有做好嗎?
ex3:stacking的結果沒有比較好
我把 extraTree 、RandomForest、xgboost做stacking後,但結果似乎沒有比較好?
不知道原因是什麼?另外,想請問一件事,我stacking之前使用的所有演算法的參數應該
要先tune完嗎?如果把所有參數tune完後,再做Stacking,結果真的會比之前還好嗎?
感覺我現在做的結果應該有盲點,但小弟弱弱的,不知道忽略了什麼?
請各位大大指點迷津,感謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.196.203
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520733590.A.BAF.html
→
03/11 11:46,
6年前
, 1F
03/11 11:46, 1F
→
03/11 11:47,
6年前
, 2F
03/11 11:47, 2F
→
03/11 11:47,
6年前
, 3F
03/11 11:47, 3F
→
03/11 11:49,
6年前
, 4F
03/11 11:49, 4F
→
03/11 11:50,
6年前
, 5F
03/11 11:50, 5F
→
03/11 11:50,
6年前
, 6F
03/11 11:50, 6F
→
03/11 11:51,
6年前
, 7F
03/11 11:51, 7F
→
03/11 11:51,
6年前
, 8F
03/11 11:51, 8F
→
03/11 11:52,
6年前
, 9F
03/11 11:52, 9F
→
03/11 11:54,
6年前
, 10F
03/11 11:54, 10F
→
03/11 11:54,
6年前
, 11F
03/11 11:54, 11F
→
03/11 11:55,
6年前
, 12F
03/11 11:55, 12F
→
03/11 11:56,
6年前
, 13F
03/11 11:56, 13F
→
03/12 15:41,
6年前
, 14F
03/12 15:41, 14F
→
03/12 15:41,
6年前
, 15F
03/12 15:41, 15F
→
03/12 15:43,
6年前
, 16F
03/12 15:43, 16F