[問題] 利用Test的data部分來幫助訓練模型合理

看板DataScience作者Darkflame (遙遠的距離)時間3年前 (2022/07/14 16:12)推噓4(4推 0噓 11→)

留言15則, 9人參與討論串1/1

問題類別:(ex：ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) ML 問題內容: 如題，想請問大家對於利用Test set的data部分(沒用到labels)來幫助建立or訓練模型是不是合理的？以NLP來舉兩種情境：情境1: 假設今天我有一些Product review，裡面的Test set包含有 sentences及labels (binary sentiment)。如果利用Train set + Test set的所有sentences來建立TF-IDF feature，並依照此TF-IDF feature來訓練classification model 訓練model時僅有用到Train set的labels(並沒有用到test set的labels)，這樣學術上是可接受的嗎？情境2: 同樣是情境1的Product review data。假設今天我在訓練model的時候，透過某種方法在訓練時增加在training set裡相似於test sentences的那些sentences的權重，並減少在training set裡不相似於 test sentences的那些sentences的權重 (比如利用transformer embedding計算相似度，沒利用到test labels)，這樣學術上是可接受的嗎？謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.161.44.2 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1657786378.A.846.html ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29 ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52

推

jigfopsda

07/14 16:53, 3年前 , 1^F

07/14 16:53, 1^F

→

fallcolor

07/14 18:34, 3年前 , 2^F

07/14 18:34, 2^F

→

Darkflame

07/15 03:51, 3年前 , 3^F

07/15 03:51, 3^F