[問題] 類別不平衡

看板DataScience作者DennismithJR (DSJ)時間7年前 (2018/03/19 22:25)推噓7(7推 0噓 8→)

留言15則, 8人參與討論串1/3 (看更多)

想請問大家在處理分類問題時遇到標籤分布很不平衡時會怎麼處理呢翻過Kaggle上一些相關問題，幾乎沒看到有人因此做特別的抽樣或其他處理好像只要評估指標是logloss或ROC的AUC就當沒事了... 不知道是不是因為樣本少的類別仍有一定數量就能如此? 若好比說我有一組樣本標籤有五個類別，數量分別如下面所示，其比例與母體相符 A: 10000 B: 5000 C: 200 D: 15 E: 8 顯然這樣本在D、E甚至C的分類上可能會出現些問題想請問遇到這樣的分布，有什麼建議的抽樣方式呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.54.248 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521469553.A.8FB.html

推

03/19 22:38, 7年前 , 1^F

03/19 22:38, 1^F

推

03/20 00:30, 7年前 , 2^F

03/20 00:30, 2^F

推

03/20 02:12, 7年前 , 3^F

03/20 02:12, 3^F

推 NBAPredictor: Boosting的話沒什麼差不過D跟E基本上沒救了 03/20 07:53

→

03/20 07:54, 7年前 , 4^F

03/20 07:54, 4^F

不好意思這邊補充一下原文可能沒說清楚的部分其實原始資料量要比上面舉例大上許多，或許有上百倍大，因此稀少類別數或許也有數百個考量計算成本，目前都是先抽樣一小部分來嘗試下面的回文有提到可以將樣本多的類別切割，再一一和較稀少的類別拼湊訓練除此之外，不知道有沒有更省資源的抽樣方法能做到差不多的效果呢@@?

→

03/20 09:05, 7年前 , 5^F

03/20 09:05, 5^F

→

03/20 09:05, 7年前 , 6^F

03/20 09:05, 6^F

我也曾想試試類似的方法，不過還沒看過有人實際上這樣做不知道有沒有關鍵字、相關文獻或是實作案例可以讓我參考看看?

→

03/20 09:07, 7年前 , 7^F

03/20 09:07, 7^F

→

03/20 09:07, 7年前 , 8^F

03/20 09:07, 8^F

→

03/20 09:08, 7年前 , 9^F

03/20 09:08, 9^F

→

03/20 09:08, 7年前 , 10^F

03/20 09:08, 10^F

推

03/20 09:19, 7年前 , 11^F

03/20 09:19, 11^F

→

03/20 09:20, 7年前 , 12^F

03/20 09:20, 12^F

※ 編輯: DennismithJR (118.168.165.55), 03/21/2018 00:51:21

推

03/21 02:03, 7年前 , 13^F

03/21 02:03, 13^F

推

03/21 15:08, 7年前 , 14^F

03/21 15:08, 14^F

推

04/13 11:42, 7年前 , 15^F

04/13 11:42, 15^F

‣ 返回看板[ DataScience ] 研討

‣ 更多 DennismithJR 的文章

文章代碼(AID): #1QhyXnZx (DataScience)

討論串 (同標題文章)

以下文章回應了本文 (最舊先)：

問題

6

10

Re: [問題] 類別不平衡 Re: 類別不平衡

7年前, 03/27

問題

0

1

Re: [問題] 類別不平衡 Re: 類別不平衡

7年前, 03/20

完整討論串 (本文為第 1 之 3 篇)：

排序：最新先 | 最舊先 | 留言數

問題

6

10

Re: [問題] 類別不平衡 Re: 類別不平衡

7年前, 03/27

問題

0

1

Re: [問題] 類別不平衡 Re: 類別不平衡

7年前, 03/20

問題

7

15

[問題] 類別不平衡類別不平衡

7年前, 03/19

在新視窗開啟完整討論串 (共3篇)

‣ 返回看板[ DataScience ] 研討

‣ 更多 DennismithJR 的文章

文章代碼(AID): #1QhyXnZx (DataScience)