[問題] 類別不平衡

看板DataScience作者 (DSJ)時間6年前 (2018/03/19 22:25), 6年前編輯推噓7(708)
留言15則, 8人參與, 6年前最新討論串1/3 (看更多)
想請問大家在處理分類問題時遇到標籤分布很不平衡時會怎麼處理呢 翻過Kaggle上一些相關問題,幾乎沒看到有人因此做特別的抽樣或其他處理 好像只要評估指標是logloss或ROC的AUC就當沒事了... 不知道是不是因為樣本少的類別仍有一定數量就能如此? 若好比說我有一組樣本 標籤有五個類別,數量分別如下面所示,其比例與母體相符 A: 10000 B: 5000 C: 200 D: 15 E: 8 顯然這樣本在D、E甚至C的分類上可能會出現些問題 想請問遇到這樣的分布,有什麼建議的抽樣方式呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.54.248 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521469553.A.8FB.html

03/19 22:38, 6年前 , 1F
一種是不要抽樣 把少樣本的error提高
03/19 22:38, 1F

03/20 00:30, 6年前 , 2F
hard example mining 或 focal loss吧
03/20 00:30, 2F

03/20 02:12, 6年前 , 3F
google SMOTE
03/20 02:12, 3F
NBAPredictor: Boosting的話沒什麼差 不過D跟E基本上沒救了 03/20 07:53

03/20 07:54, 6年前 , 4F
D跟E或許可以拉KNN來Stacking
03/20 07:54, 4F
不好意思 這邊補充一下原文可能沒說清楚的部分 其實原始資料量要比上面舉例大上許多,或許有上百倍大, 因此稀少類別數或許也有數百個 考量計算成本,目前都是先抽樣一小部分來嘗試 下面的回文有提到可以將樣本多的類別切割,再一一和較稀少的類別拼湊訓練 除此之外,不知道有沒有更省資源的抽樣方法能做到差不多的效果呢@@?

03/20 09:05, 6年前 , 5F
乾脆把 CDE 當作一類 如果選到這類
03/20 09:05, 5F

03/20 09:05, 6年前 , 6F
再用另一個 model 去 fit
03/20 09:05, 6F
我也曾想試試類似的方法,不過還沒看過有人實際上這樣做 不知道有沒有關鍵字、相關文獻或是實作案例可以讓我參考看看?

03/20 09:07, 6年前 , 7F
另外多類不平衡的話 可能要做多個 1 vs all
03/20 09:07, 7F

03/20 09:07, 6年前 , 8F
針對不同的case 給不同的 01 邊界
03/20 09:07, 8F

03/20 09:08, 6年前 , 9F
舉例來說 A的 case, pred>0.5 =1, <0.5=0
03/20 09:08, 9F

03/20 09:08, 6年前 , 10F
but E case, pred>0.1=1 pred<0.1=0
03/20 09:08, 10F

03/20 09:19, 6年前 , 11F
在考慮balanced sampling的問題以前,應該先想想看在不同類
03/20 09:19, 11F

03/20 09:20, 6年前 , 12F
別你能容忍的false pos/neg是多高
03/20 09:20, 12F
※ 編輯: DennismithJR (118.168.165.55), 03/21/2018 00:51:21

03/21 02:03, 6年前 , 13F
我的調error不就超省資源= =
03/21 02:03, 13F

03/21 15:08, 6年前 , 14F
oversampling to the rescue!
03/21 15:08, 14F

04/13 11:42, 6年前 , 15F
data augmentation
04/13 11:42, 15F
文章代碼(AID): #1QhyXnZx (DataScience)
文章代碼(AID): #1QhyXnZx (DataScience)