Re: [討論] 關於 Dcard ML 實習作業

看板Soft_Job作者 (星塵遠征君)時間11月前 (2023/05/15 21:35), 11月前編輯推噓7(8123)
留言32則, 7人參與, 11月前最新討論串2/2 (看更多)
: 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等 : 來預測發文後 24 小時的愛心數 來雲一下我可能會怎麼做 如果假設我沒理解錯誤題目的話,應該基於給予的前六小時的資料, 去預測未來24小時候的愛心數吧? 首先這題目我可能就不會考慮用NLP來做處理,主要是資料量可能不足 再加上中文NLP來做除了麻煩外效果可能也不會太好 想法是有了1~6小時的愛心數跟評論量,預測未來24小時的愛心數 基本上標題文字的意義其實可能就不是那麼重大,有強烈特徵的可能只是一兩個關鍵字 而且有了前六小時的數據,基本上不用標題也能夠推估未來的數字 所以覺得這題比較難的是,你沒有6小時之後的資料,所以很難預估一個趨勢 (除非有給完整趨勢資料) 因此我會將看板資訊轉成單純數字的Label, 或是可以取得與看版相關的人氣值正規化後做代替 將標題做關鍵字提取,並且做文字雲把重複的強烈關鍵字與留言愛心數做對應, 重新建一個特徵值 接下來就有完整的特徵值資料,做一下特徵值的關聯性或是強度分析 挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以) (應該用LSTM效果比較好) 基本上能簡單做就不會想太複雜處理,單純一個想法也確定可不可行,供大家討論參考 -- 那片有座高塔哭著朝北方奔去的天空,是我此刻片尋不著的風景 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.82.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1684157729.A.940.html

05/16 07:55, 11月前 , 1F
為啥會沒有24小時後的資料,dcard文章不是一大堆,
05/16 07:55, 1F

05/16 07:55, 11月前 , 2F
隨便爬都有啊
05/16 07:55, 2F
我不知道他們題目有沒有說可以拿外部資料,只為了符合遊戲規則而已 如果是我理解這樣,這題目其實比較有點類似工業界的生命預估

05/16 07:56, 11月前 , 3F
我也覺的是這個方向,但關鍵字應該也是重要,但關鍵字如何
05/16 07:56, 3F

05/16 07:57, 11月前 , 4F
提取,應該是dl訓練出來的。我覺的這題關鍵是如何提取關鍵
05/16 07:57, 4F

05/16 07:58, 11月前 , 5F
字,不然有6小時的資料應該很容易預測24小時的愛心數。
05/16 07:58, 5F

05/16 08:02, 11月前 , 6F
而且給time series的資料,應該就是想用transformer
05/16 08:02, 6F
能簡單就比較不會想複雜用,雖然不確定考官想要的方向是什麼

05/16 11:10, 11月前 , 7F
5萬筆資料用transformer 去over-fitting? 資料量那麼少,
05/16 11:10, 7F

05/16 11:10, 11月前 , 8F
模型用那麼複雜,效果好也是運氣
05/16 11:10, 8F

05/16 11:12, 11月前 , 9F
沒有對錯,純個人不同看法。
05/16 11:12, 9F
認同 ※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 12:23:10

05/16 12:27, 11月前 , 10F
transformer 一般來說要到哪個數量級才勉強及格 ?
05/16 12:27, 10F
如果在NLP感覺至少也要數十萬以上才夠用 但目前的題目是只要抓標題,文本量很少因此我猜五萬筆是足夠的 只是如果今天拿去測外部資料會不會準,就不知道了

05/16 13:01, 11月前 , 11F
我猜現在所有人都在用bert/gpt,找intern應該也是想要延續
05/16 13:01, 11F

05/16 13:01, 11月前 , 12F
公司正在做的,transformer也許不是最適合這題,但可能是
05/16 13:01, 12F

05/16 13:03, 11月前 , 13F
dcard想找的人。只是盲猜,提出來聊聊。面試,考題,機運
05/16 13:03, 13F

05/16 13:03, 11月前 , 14F
蠻重要的。
05/16 13:03, 14F

05/16 13:12, 11月前 , 15F
這種"標題"對"星星"的decoder應該很簡易訓練,反正資料少
05/16 13:12, 15F
的確考量考官想看的差異度會很大,有些考官喜歡看新東西新技術,有些考官喜歡實用性

05/16 13:38, 11月前 , 16F
用BOW就夠了吧
05/16 13:38, 16F
真是懷念XD 但依我原先的想法用BOW應該就是最直接的了 ※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 14:01:23

05/17 13:58, 11月前 , 17F
挑一個預訓練的中文模型,五萬條fine tune transformer
05/17 13:58, 17F

05/17 13:58, 11月前 , 18F
很夠了... 2023了沒人在train from scratch
05/17 13:58, 18F

05/18 00:00, 11月前 , 19F
你在講什麼 自己改題目? 還沒發文哪來的前六小時?
05/18 00:00, 19F

05/18 00:05, 11月前 , 20F
用transformer,尤其是直接標題放進去train就是準備 over-
05/18 00:05, 20F

05/18 00:05, 11月前 , 21F
fitting啊,ML基本常識。 BERT Embedding+ 下游小模型,我
05/18 00:05, 21F

05/18 00:05, 11月前 , 22F
還覺得稍微有點ML常識。
05/18 00:05, 22F

05/18 00:06, 11月前 , 23F
這吳恩達的deep learning或各種ML經典教科書都有寫吧。資
05/18 00:06, 23F

05/18 00:06, 11月前 , 24F
料量少要用小模型。
05/18 00:06, 24F

05/18 00:10, 11月前 , 25F
或者把 transformer或BERT的layer抽掉幾層成為較小模型也
05/18 00:10, 25F

05/18 00:10, 11月前 , 26F
可。用小模型是為了降低模型的Variance,這基本常識吧。
05/18 00:10, 26F

05/18 00:12, 11月前 , 27F
這就是為什麼原PO用XGBoost LightGBM ,反而效果可能好
05/18 00:12, 27F

05/18 08:49, 11月前 , 28F
這就是很詭異的地方,現在用LLMs,用少少的data fine tune
05/18 08:49, 28F

05/18 08:50, 11月前 , 29F
效果奇異的好。也許LLMs裡的"知識"夠多,adaptation效果
05/18 08:50, 29F

05/18 08:52, 11月前 , 30F
奇佳。在twitter上看到一些專研NLP的學者有點垂頭喪氣,說
05/18 08:52, 30F

05/18 08:52, 11月前 , 31F
以後不用研究了
05/18 08:52, 31F

05/18 20:04, 11月前 , 32F
這也不是今年才這樣 沒人在from scratch了
05/18 20:04, 32F
文章代碼(AID): #1aOZKXb0 (Soft_Job)
文章代碼(AID): #1aOZKXb0 (Soft_Job)