[問題]各位大大想請問data anaylsis的一些問題

看板Python作者 ( )時間6年前 (2018/03/11 09:59), 編輯推噓0(0016)
留言16則, 2人參與, 6年前最新討論串1/1
各位大大好: 小的最近參加一個比賽,但目前結果卡住中,不知道該怎麼進行下去, 同時也有一些疑問在心中,希望各位大大能幫我解惑QQ ex1:怎麼確認overfitting的回合數? 附上做完cross validation兩張圖的結果,第一張圖為AUC的結果,第二張圖為標準差 (藍色為training-set,綠色為validation-set的結果) 第一張圖:https://imgur.com/9HRjStj
第二張圖: https://imgur.com/a/O5jrA 另外我覺得也有一點蠻奇怪的:照理說training-set的error已經1.0了,為什麼validation set的分數還在持續上升中?我是用xgboost的cv套件,跟這個會有關係嗎? ex2:feature selection該怎麼做? 另外一件事是我training的資料量大約五萬多筆,目前使用的feature數目是一千多個 看起來會有維度詛咒的問題,但我若把維度下降至一百多維後再重新Training, 但結果似乎並不會比較好?如果我的維度下降得更多,結果似乎會變得稍差@@ 想請問這樣是我的feature selection沒有做好嗎? ex3:stacking的結果沒有比較好 我把 extraTree 、RandomForest、xgboost做stacking後,但結果似乎沒有比較好? 不知道原因是什麼?另外,想請問一件事,我stacking之前使用的所有演算法的參數應該 要先tune完嗎?如果把所有參數tune完後,再做Stacking,結果真的會比之前還好嗎? 感覺我現在做的結果應該有盲點,但小弟弱弱的,不知道忽略了什麼? 請各位大大指點迷津,感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.196.203 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520733590.A.BAF.html

03/11 11:46, 6年前 , 1F
feature selection 有一堆方法
03/11 11:46, 1F

03/11 11:47, 6年前 , 2F
重點那些只是"方法" 並不代表select 之後 效果會好
03/11 11:47, 2F

03/11 11:47, 6年前 , 3F
背後的假設都不同
03/11 11:47, 3F

03/11 11:49, 6年前 , 4F
train and validation 夠靠近 比較好
03/11 11:49, 4F

03/11 11:50, 6年前 , 5F
靠近代表的意義是 你的 model 準確度
03/11 11:50, 5F

03/11 11:50, 6年前 , 6F
並不會因為 data 而有所改變 這是我們期望的
03/11 11:50, 6F

03/11 11:51, 6年前 , 7F
參數是最後在做的事
03/11 11:51, 7F

03/11 11:51, 6年前 , 8F
你應該先專注在 feature engineering
03/11 11:51, 8F

03/11 11:52, 6年前 , 9F
看起來你並沒有對原始變數做延伸
03/11 11:52, 9F

03/11 11:54, 6年前 , 10F
舉例來說 y=log(x)+epsilon 但是你得到的只是 x
03/11 11:54, 10F

03/11 11:54, 6年前 , 11F
feature engineer 就是把這些關係找出來
03/11 11:54, 11F

03/11 11:55, 6年前 , 12F
特徵工程基本上都是 case by case
03/11 11:55, 12F

03/11 11:56, 6年前 , 13F
想做的好 必須對該領域有足夠的了解
03/11 11:56, 13F

03/12 15:41, 6年前 , 14F
ex1 原po 是不是想問如何決定而非確定,當training
03/12 15:41, 14F

03/12 15:41, 6年前 , 15F
跟 cv開始分開,就代表overfitting開始發生
03/12 15:41, 15F

03/12 15:43, 6年前 , 16F
所以要避免train出training & cv分太開的model
03/12 15:43, 16F
文章代碼(AID): #1Qf8sMkl (Python)