[討論] 關於機器學習裡 imbalance 資料

看板Statistics作者 (願意感動就是一種享受)時間3年前 (2022/09/15 23:25), 編輯推噓3(3039)
留言42則, 6人參與, 3年前最新討論串1/1
機器學習裡有各種不同的抽樣或模擬方法去處理 imbalance 的 output variable 我們在 training set 裡 balance the output variable 但是回到 test set 裡,我們處理的依舊是 imbalance 的output 所以我的疑惑是為什麼 balance training set 可以改善機器學習的模型? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.86.147.139 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1663255519.A.EF9.html

09/16 12:30, 3年前 , 1F
這要看模型和你的目標函數吧
09/16 12:30, 1F

09/16 12:32, 3年前 , 2F
譬如要做二分類的時候,一類佔九成,二類站一成,那
09/16 12:32, 2F

09/16 12:32, 3年前 , 3F
模型只要全預測成一類,準確度就嚇嚇叫
09/16 12:32, 3F

09/20 22:12, 3年前 , 4F
考慮二元分類,若0類99%,1類1%,那模型把0類猜錯成
09/20 22:12, 4F

09/20 22:13, 3年前 , 5F
1類會常常受到處罰,反之1類的訓練量很少,猜錯成0
09/20 22:13, 5F

09/20 22:14, 3年前 , 6F
處罰也不多,所以就學會全部猜0最划算。這個問題在
09/20 22:14, 6F

09/20 22:15, 3年前 , 7F
你給模型公平機會訓練0,1類的時候就減輕了
09/20 22:15, 7F

09/21 01:55, 3年前 , 8F
我明白training裡的邏輯,但test並不能balance資料
09/21 01:55, 8F

09/21 01:56, 3年前 , 9F
所以兩邊基本是不同的data patterns
09/21 01:56, 9F

09/21 01:57, 3年前 , 10F
所以為什麼平衡training可以改善test的performace?
09/21 01:57, 10F

09/21 07:16, 3年前 , 11F
警察例行巡查碰到罪犯的頻率很低,但平時訓練會針對罪犯
09/21 07:16, 11F

09/21 07:16, 3年前 , 12F
情境啊。如一樓說的,重點在於目標函數的設定,遇到罪犯
09/21 07:16, 12F

09/21 07:16, 3年前 , 13F
的頻率雖少但很重要,權重很大,這時候召回率(抓到罪犯
09/21 07:16, 13F

09/21 07:16, 3年前 , 14F
的比率)是重要的指標,而召回率根本不考慮守法份子,但
09/21 07:16, 14F

09/21 07:16, 3年前 , 15F
只考慮召回率也有問題(將全部路人指認為罪犯,召回率高
09/21 07:16, 15F

09/21 07:16, 3年前 , 16F
達1),所以會有其他權衡(例如f1 score),這樣訓練時將資
09/21 07:16, 16F

09/21 07:16, 3年前 , 17F
料平衡就很合理了
09/21 07:16, 17F

09/21 10:15, 3年前 , 18F
test set就是看你模型的可推廣性,訓練就是從一堆
09/21 10:15, 18F

09/21 10:15, 3年前 , 19F
函數(hypothesis set)裡面挑出一個最好的,模型可以
09/21 10:15, 19F

09/21 10:16, 3年前 , 20F
認得1類的pattern那就可以推廣
09/21 10:16, 20F

09/21 10:17, 3年前 , 21F
舉個例子,你訓練出一個認貓狗的模型,之後測試時
09/21 10:17, 21F

09/21 10:18, 3年前 , 22F
故意每100張貓圖只摻1張狗圖,模型會認不出狗嗎?
09/21 10:18, 22F

09/21 10:20, 3年前 , 23F
權重是另外一回事了,如果不用up/down sampling,那
09/21 10:20, 23F

09/21 10:21, 3年前 , 24F
可以在訓練時使用權重讓辨認不出少數族群處罰很重
09/21 10:21, 24F

09/21 10:22, 3年前 , 25F
也就是:1.你的問題在imbalance時的可推廣性 2.對付
09/21 10:22, 25F

09/21 10:22, 3年前 , 26F
imbalance情況可以up/down sampling或reweightingy
09/21 10:22, 26F

09/21 10:22, 3年前 , 27F
3.2裡面的方法為什麼有效就是訓練時處罰的概念
09/21 10:22, 27F

09/22 11:46, 3年前 , 28F
那我再舉一個例子,當某個考生在讀書的時候,練九題
09/22 11:46, 28F

09/22 11:46, 3年前 , 29F
微方然後練一題統計,考試的時候考一半微方一半統計
09/22 11:46, 29F

09/22 11:47, 3年前 , 30F
那這考生是不是在答統計的時候會答的比較差?
09/22 11:47, 30F

09/22 11:49, 3年前 , 31F
balance 的用意就在於希望模型放一樣的努力在統計和
09/22 11:49, 31F

09/22 11:49, 3年前 , 32F
微方,當兩個科目都有一定掌握,理想上這模型對數學
09/22 11:49, 32F

09/22 11:49, 3年前 , 33F
的理解會比較深刻
09/22 11:49, 33F

09/22 11:53, 3年前 , 34F
不過training set和testing set同源時
09/22 11:53, 34F

09/22 11:53, 3年前 , 35F
balanced model 不一定會有比較好的表現,這部分和前
09/22 11:53, 35F

09/22 11:53, 3年前 , 36F
面提到的一樣,取決於你的target怎麼定
09/22 11:53, 36F

11/14 08:35, 3年前 , 37F
反問發問人,您進行測試集之「測試目的」何在? 為了測試
11/14 08:35, 37F

11/14 08:36, 3年前 , 38F
訓練出來的模型「辨識一般無偏狀況」的能力? 還是測試y
11/14 08:36, 38F

11/14 08:36, 3年前 , 39F
訓練所得模型「在特定偏差下」的辨識能力?
11/14 08:36, 39F

11/14 08:38, 3年前 , 40F
如同訓練集的挑選,測試集挑選也要「符合測試目的」
11/14 08:38, 40F

11/15 20:01, 3年前 , 41F
取決使用場景 例如假設你目的是診斷rare disease 你
11/15 20:01, 41F

11/15 20:01, 3年前 , 42F
都猜沒病就accuracy很高但根本沒用(sensitivity=0)
11/15 20:01, 42F
文章代碼(AID): #1Z8qFVxv (Statistics)