討論串[問題] 類別不平衡
共 3 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓7(7推 0噓 8→)留言15則,0人參與, 6年前最新作者DennismithJR (DSJ)時間6年前 (2018/03/19 22:25), 6年前編輯資訊
2
0
0
內容預覽:
想請問大家在處理分類問題時遇到標籤分布很不平衡時會怎麼處理呢. 翻過Kaggle上一些相關問題,幾乎沒看到有人因此做特別的抽樣或其他處理. 好像只要評估指標是logloss或ROC的AUC就當沒事了.... 不知道是不是因為樣本少的類別仍有一定數量就能如此?. 若好比說我有一組樣本. 標籤有五個類別
(還有416個字)

推噓0(0推 0噓 1→)留言1則,0人參與, 6年前最新作者abc2090614 (casperxdd)時間6年前 (2018/03/20 10:23), 6年前編輯資訊
0
0
1
內容預覽:
如果要從抽樣下手. 以你的為例 如果只看A跟D+E 10000:23 差不多0.2%. 這種比例的imbalance class還算正常. 我目前用過最有效的方法是把 A 拆成100塊 A1, A2, A3, ... A100. 然後每塊去跟所有的D+E拼起來 訓練100個小模型. 這樣每塊變成10
(還有575個字)

推噓6(6推 0噓 4→)留言10則,0人參與, 6年前最新作者pipidog (如果狗狗飛上天)時間6年前 (2018/03/27 06:21), 6年前編輯資訊
0
0
0
內容預覽:
這樣的數據你拿來訓練,其結果就是C,D,E會被完全淹沒在汪洋大海之中,模型. 的參數幾乎沒有機會針對它們做優化.其結果就是CDE通通會被判讀成A跟B.所. 以你要做的是data augmentation.讓弱勢類可以有更多機會被模型讀到.. 常見的方法(至少我知道的):. 1.暴力的把弱勢類的資料直
(還有1208個字)
首頁
上一頁
1
下一頁
尾頁