Re: [問題] Validation set 到底在做什麼?

看板DataScience作者leoloveivy (cried)時間7年前 (2018/03/27 11:36)推噓2(2推 0噓 3→)

留言5則, 1人參與討論串3/8 (看更多)

我們把數據分割成三等分,每次取一份出來做validation,另外兩份作trian來生成模型,這樣每一次我就會生成三個模型,給出三個performance,然後我拿三個performance來取平均作為總的performance,以衡量我模型的好壞. ======================= 看到這個就是我長久一來一直卡住的地方我們資料收集可以假設一堆資料分布差不多可是當我們切成train val test 我會比較困惑當n flod後資料分堆後 distance差異明顯會變高分好的set 跟一開始的差異在於data量少了所以各個set distance反而變明顯那在deep learning中又可以把這種高維度的小差距分的很好那這樣inference的performance不就完全取決於我的training set上我拿他去平均各個performance 這樣真的是可以知道模型好壞嗎? 假設我出來3個 0.9 0.9 0.2那這樣的話我是不是要回頭把我的data preparing 再做好會比去調model更好或者再去把n調大再試試看avg performance 希望大家指點不知道哪裡觀念錯卡住 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.250.197 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522121811.A.03B.html

推

goldflower

03/27 12:12, 7年前 , 1^F

03/27 12:12, 1^F

→

goldflower

03/27 12:13, 7年前 , 2^F

03/27 12:13, 2^F

舉的例子是有點誇張因為我不太確定就算我們去test deploy應該還是會拿分數高的去嗎? 所以說遇到這個要回去data preparing 還是把dataset fixed先調整model 哪個先優先做才會比較好

→

goldflower

03/27 12:14, 7年前 , 3^F