[問題] 怎麼確保資料分布跟真實世界相近 ?

看板DataScience作者 (叫我松高魂 ~~)時間4年前 (2020/05/27 10:14), 編輯推噓5(506)
留言11則, 6人參與, 3年前最新討論串1/1
最近進行一些電腦視覺的專案, 發現實在很難確認收集來的資料(圖片)到底夠不夠貼近真實世界的狀況。 舉例來說,我用一個開放資料集,以這個資料集為基礎上可以取得相當不錯的訓練成果, 但發現在真實世界的推論卻達不到標準。 回過頭來看,如果要加資料,也不知道可以怎麼加, 要加上哪種資料才可以讓模型更 robust 想請教大家,在收集資料上面,都是怎麼確保資料的品質 ? 不管是圖像資料或是量化資料, 要用什麼方式或從什麼面向來確定自己的資料本身是沒問題的呢 ? -- Ο ο 。 ο ○ 。 ○ ° ° ο Ο -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.192.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1590545693.A.2A0.html

05/27 15:29, 4年前 , 1F
從你測試的真實世界中擷取資料呀
05/27 15:29, 1F

05/27 17:52, 4年前 , 2F
基本上這是一個有點弔詭的問題,如果你能驗證你的資料是否
05/27 17:52, 2F

05/27 17:53, 4年前 , 3F
跟真實世界相同或相近,那表示你已經能夠知道真實世界資料
05/27 17:53, 3F

05/27 17:54, 4年前 , 4F
的分佈了,那哪還需要Learning一個model來學習呢XD
05/27 17:54, 4F

05/27 17:55, 4年前 , 5F
基本上你只能盡可能讓你收集資料的手段合理公平均勻,但是
05/27 17:55, 5F

05/27 17:55, 4年前 , 6F
談不到什麼驗證
05/27 17:55, 6F

05/30 16:53, 4年前 , 7F
你有用k-fold cross-validation排除你的模型可能只適用於
05/30 16:53, 7F

05/30 16:53, 4年前 , 8F
某一特定訓練集跟測試集的問題嗎?
05/30 16:53, 8F

06/07 04:11, 3年前 , 9F
you will never know
06/07 04:11, 9F

06/07 19:07, 3年前 , 10F
檢查一下學習曲線,應該是過擬合
06/07 19:07, 10F

06/10 12:27, 3年前 , 11F
推 你永遠不能知道未來的世界(真實資料)會長什麼樣
06/10 12:27, 11F
文章代碼(AID): #1UpSqTAW (DataScience)