[討論] 關於 Dcard ML 實習作業

看板Soft_Job作者Sixigma (六西格瑪)時間1年前 (2023/05/14 01:29)推噓12(13推 1噓 34→)

留言48則, 13人參與討論串1/2 (看更多)

看到下面有篇大神有討論到這次 Dcard ML 實習作業，因為沒有收到團隊的具體反饋想和大家討論作業的狀況題目是用結構資料，包含標題、看板資訊以及1-6小時的愛心數和評論數等等來預測發文後 24 小時的愛心數因為當時是期中，我只大概花了五天約二十個小時來做我的作法大致如下首先先用 XGBoost LightGBM 把量化資料做出 baseline 但沒辦法處理最重要的標題資訊所以就直接拿 Huggingface BERT 來做直接把資料餵進去的訓練是無法收斂的後來也嘗試一些 Emsemble 和 training tricks 但也都沒辦法收斂，甚至達不到 baseline 的效果認為是資料量的問題到這邊沒什麼特別想法就直接寫報告了我一直都主要是做 CV ，碩論跑去做 3D 對 NLP 非常不熟悉，不知道是否有漏掉關鍵操作想請同有拿到作業的大神指點謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.171.131.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1683998999.A.DBB.html

推

05/14 03:05, 1年前 , 1^F

05/14 03:05, 1^F

任務如文中所述，是迴歸問題，目標是文章發文後24小時的愛心數因為有中文標題，故直覺想到就是 BERT，將中文標題 tokenize 後連同其他 feature 一同 concatenate，送入BERT直接 end2end 訓練出愛心數

推

05/14 10:49, 1年前 , 2^F

05/14 10:49, 2^F

不知道實驗室內有沒有其他效果比較好的解法？

推

05/14 12:01, 1年前 , 3^F

05/14 12:01, 3^F

謝謝提供思路，但LSTM的話要如何考慮中文標題？一樣使用word2vec或tokenizer嗎？

推

05/14 13:05, 1年前 , 4^F

05/14 13:05, 4^F

→

05/14 13:05, 1年前 , 5^F

05/14 13:05, 5^F

→

05/14 13:05, 1年前 , 6^F

05/14 13:05, 6^F

謝謝，確實我幾乎沒有做 feature engineering 是否方便請教後續是用什麼方法回歸出愛心數？

推

05/14 14:36, 1年前 , 7^F

05/14 14:36, 7^F

→

05/14 14:36, 1年前 , 8^F

05/14 14:36, 8^F

→

05/14 14:38, 1年前 , 9^F

05/14 14:38, 9^F

→

05/14 14:38, 1年前 , 10^F

05/14 14:38, 10^F

→

05/14 14:38, 1年前 , 11^F

05/14 14:38, 11^F

→

05/14 14:41, 1年前 , 12^F

05/14 14:41, 12^F

→

05/14 14:46, 1年前 , 13^F

05/14 14:46, 13^F

→

05/14 14:46, 1年前 , 14^F

05/14 14:46, 14^F

→

05/14 14:48, 1年前 , 15^F

05/14 14:48, 15^F

→

05/14 14:48, 1年前 , 16^F

05/14 14:48, 16^F

→

05/14 14:51, 1年前 , 17^F

05/14 14:51, 17^F

→

05/14 14:51, 1年前 , 18^F

05/14 14:51, 18^F

→

05/14 14:58, 1年前 , 19^F

05/14 14:58, 19^F

→

05/14 14:58, 1年前 , 20^F

05/14 14:58, 20^F

謝謝DrTech大的回復，tokenizer出來的embeddings我是有再downsampling的當時也有考慮到這件事情，我也測試過downsample到4 - 16或其他一些奇淫巧技也有對tokenizer做regularization等等，但對訓練幫助都不大至於標題是否影響愛心數，確實實際上不一定但該資料集提供的特徵數很少，其餘大多都是scalar 相信他們一定希望受試者去分析標題，當然處理整個標題可能不是個好辦法 1-6小時愛心數與24小時愛心數的相關性非常高故我也在BERT之中嘗試建立使用這些高相關feature的MLP迴歸模型以及和 XGBoost LightGBM 的 Ensemble 但對訓練並無明顯益處我在寫這份測驗的時候，並不覺得量化結果會多好，因為僅有約五萬筆資料(文章) 而同時也要展現工程能力，譬如我用 Pytorch-lightning 架構整個 training, monitoring, evaluation pipeline 實作上的能力可能會區分我與其他一部分的面試者但結果看來可能是有大神直接幹出很好的模型和訓練結果後續評分項如解題思路、報告呈現和實作能力都沒有被考量了才很好奇進入面試的大神是怎麼得出很好的預測方法的感謝您的回覆 ※ 編輯: Sixigma (118.171.131.209 臺灣), 05/14/2023 16:03:47

推

05/14 16:44, 1年前 , 21^F

05/14 16:44, 21^F

→

05/14 16:44, 1年前 , 22^F

05/14 16:44, 22^F

→

05/14 16:44, 1年前 , 23^F

05/14 16:44, 23^F

→

05/14 16:44, 1年前 , 24^F

05/14 16:44, 24^F

→

05/14 16:44, 1年前 , 25^F

05/14 16:44, 25^F

→

05/14 16:44, 1年前 , 26^F

05/14 16:44, 26^F

推

05/14 17:01, 1年前 , 27^F

05/14 17:01, 27^F

→

05/14 17:01, 1年前 , 28^F

05/14 17:01, 28^F

→

05/14 17:01, 1年前 , 29^F

05/14 17:01, 29^F

→

05/14 17:01, 1年前 , 30^F

05/14 17:01, 30^F

推

05/14 17:54, 1年前 , 31^F

05/14 17:54, 31^F

→

05/14 18:43, 1年前 , 32^F

05/14 18:43, 32^F

→

05/14 18:43, 1年前 , 33^F

05/14 18:43, 33^F

→

05/14 18:43, 1年前 , 34^F

05/14 18:43, 34^F

→

05/14 18:43, 1年前 , 35^F

05/14 18:43, 35^F

噓

05/14 21:13, 1年前 , 36^F

05/14 21:13, 36^F

推

05/14 23:37, 1年前 , 37^F

05/14 23:37, 37^F

推

05/15 03:09, 1年前 , 38^F

05/15 03:09, 38^F

推

05/15 06:11, 1年前 , 39^F

05/15 06:11, 39^F

→

05/15 06:11, 1年前 , 40^F

05/15 06:11, 40^F

→

05/15 16:04, 1年前 , 41^F

05/15 16:04, 41^F

→

05/15 16:04, 1年前 , 42^F

05/15 16:04, 42^F

推

05/15 22:35, 1年前 , 43^F

05/15 22:35, 43^F

→

05/15 22:35, 1年前 , 44^F

05/15 22:35, 44^F

→

05/15 22:35, 1年前 , 45^F

05/15 22:35, 45^F

推

05/16 09:42, 1年前 , 46^F

05/16 09:42, 46^F

→

05/16 09:42, 1年前 , 47^F

05/16 09:42, 47^F

→

05/16 09:42, 1年前 , 48^F

05/16 09:42, 48^F

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 Sixigma 的文章

文章代碼(AID): #1aNyaNsx (Soft_Job)

討論串 (同標題文章)

以下文章回應了本文：

討論

7

32

Re: [討論] 關於 Dcard ML 實習作業 Re: 關於 Dcard ML 實習作業

1年前, 05/15

完整討論串 (本文為第 1 之 2 篇)：

排序：最舊先 | 最新先 | 留言數

討論

12

48

[討論] 關於 Dcard ML 實習作業關於 Dcard ML 實習作業

1年前, 05/14

討論

7

32

Re: [討論] 關於 Dcard ML 實習作業 Re: 關於 Dcard ML 實習作業

1年前, 05/15

在新視窗開啟完整討論串 (共2篇)

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 Sixigma 的文章

文章代碼(AID): #1aNyaNsx (Soft_Job)