[問題] 利用Test的data部分來幫助訓練模型合理

看板DataScience作者 (遙遠的距離)時間1年前 (2022/07/14 16:12), 1年前編輯推噓4(4011)
留言15則, 9人參與, 1年前最新討論串1/1
問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) ML 問題內容: 如題,想請問大家對於利用Test set的data部分(沒用到labels)來幫助 建立or訓練模型是不是合理的? 以NLP來舉兩種情境: 情境1: 假設今天我有一些Product review,裡面的Test set包含有 sentences及labels (binary sentiment)。 如果利用Train set + Test set的所有sentences來建立TF-IDF feature, 並依照此TF-IDF feature來訓練classification model 訓練model時僅有用到Train set的labels(並沒有用到test set的labels), 這樣學術上是可接受的嗎? 情境2: 同樣是情境1的Product review data。假設今天我在訓練model的時候, 透過某種方法在訓練時增加在training set裡相似於test sentences的 那些sentences的權重,並減少在training set裡不相似於 test sentences的那些sentences的權重 (比如利用transformer embedding計算相似度,沒利用到test labels), 這樣學術上是可接受的嗎? 謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.161.44.2 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1657786378.A.846.html ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29 ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52

07/14 16:53, 1年前 , 1F
我覺得可以看你要比的 benchmark 有沒有也用到
07/14 16:53, 1F

07/14 18:34, 1年前 , 2F
inductive/transductive
07/14 18:34, 2F

07/15 03:51, 1年前 , 3F
回1F 也是..不過如果是自己搜集的資料的話呢?
07/15 03:51, 3F

07/15 21:41, 1年前 , 4F
看應用吧?寫出一個 review 願意買單的故事就可以
07/15 21:41, 4F

07/16 02:19, 1年前 , 5F
不行 被挑戰的時候你要怎麼說明呢
07/16 02:19, 5F

07/17 02:27, 1年前 , 6F
不行吧
07/17 02:27, 6F

07/17 21:01, 1年前 , 7F
不行
07/17 21:01, 7F

07/18 22:25, 1年前 , 8F
就是2F回的inductive/transductive learning。不是不行
07/18 22:25, 8F

07/18 22:26, 1年前 , 9F
,只是要 transductive 跟 transductive 比。最會碰到的
07/18 22:26, 9F

07/18 22:27, 1年前 , 10F
就是用 transductive learning 的結果跟 inductive 方法
07/18 22:27, 10F

07/18 22:27, 1年前 , 11F
比,那當然不公平,也不能這樣比。
07/18 22:27, 11F

07/20 19:01, 1年前 , 12F
可以,如樓上所說,想想你的應用場景,情境二就是 import
07/20 19:01, 12F

07/20 19:01, 1年前 , 13F
ance sampling, 投稿要跟同類型方法比,只是要畢業就沒
07/20 19:01, 13F

07/20 19:01, 1年前 , 14F
07/20 19:01, 14F

08/14 07:59, 1年前 , 15F
不 行
08/14 07:59, 15F
文章代碼(AID): #1Ypz0AX6 (DataScience)