Re: [討論] 關於 Dcard ML 實習作業
: 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等
: 來預測發文後 24 小時的愛心數
來雲一下我可能會怎麼做
如果假設我沒理解錯誤題目的話,應該基於給予的前六小時的資料,
去預測未來24小時候的愛心數吧?
首先這題目我可能就不會考慮用NLP來做處理,主要是資料量可能不足
再加上中文NLP來做除了麻煩外效果可能也不會太好
想法是有了1~6小時的愛心數跟評論量,預測未來24小時的愛心數
基本上標題文字的意義其實可能就不是那麼重大,有強烈特徵的可能只是一兩個關鍵字
而且有了前六小時的數據,基本上不用標題也能夠推估未來的數字
所以覺得這題比較難的是,你沒有6小時之後的資料,所以很難預估一個趨勢
(除非有給完整趨勢資料)
因此我會將看板資訊轉成單純數字的Label,
或是可以取得與看版相關的人氣值正規化後做代替
將標題做關鍵字提取,並且做文字雲把重複的強烈關鍵字與留言愛心數做對應,
重新建一個特徵值
接下來就有完整的特徵值資料,做一下特徵值的關聯性或是強度分析
挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以)
(應該用LSTM效果比較好)
基本上能簡單做就不會想太複雜處理,單純一個想法也確定可不可行,供大家討論參考
--
那片有座高塔哭著朝北方奔去的天空,是我此刻片尋不著的風景
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.82.176 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1684157729.A.940.html
推
05/16 07:55,
11月前
, 1F
05/16 07:55, 1F
→
05/16 07:55,
11月前
, 2F
05/16 07:55, 2F
我不知道他們題目有沒有說可以拿外部資料,只為了符合遊戲規則而已
如果是我理解這樣,這題目其實比較有點類似工業界的生命預估
推
05/16 07:56,
11月前
, 3F
05/16 07:56, 3F
→
05/16 07:57,
11月前
, 4F
05/16 07:57, 4F
→
05/16 07:58,
11月前
, 5F
05/16 07:58, 5F
推
05/16 08:02,
11月前
, 6F
05/16 08:02, 6F
能簡單就比較不會想複雜用,雖然不確定考官想要的方向是什麼
→
05/16 11:10,
11月前
, 7F
05/16 11:10, 7F
→
05/16 11:10,
11月前
, 8F
05/16 11:10, 8F
→
05/16 11:12,
11月前
, 9F
05/16 11:12, 9F
認同
※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 12:23:10
推
05/16 12:27,
11月前
, 10F
05/16 12:27, 10F
如果在NLP感覺至少也要數十萬以上才夠用
但目前的題目是只要抓標題,文本量很少因此我猜五萬筆是足夠的
只是如果今天拿去測外部資料會不會準,就不知道了
推
05/16 13:01,
11月前
, 11F
05/16 13:01, 11F
→
05/16 13:01,
11月前
, 12F
05/16 13:01, 12F
→
05/16 13:03,
11月前
, 13F
05/16 13:03, 13F
→
05/16 13:03,
11月前
, 14F
05/16 13:03, 14F
推
05/16 13:12,
11月前
, 15F
05/16 13:12, 15F
的確考量考官想看的差異度會很大,有些考官喜歡看新東西新技術,有些考官喜歡實用性
→
05/16 13:38,
11月前
, 16F
05/16 13:38, 16F
真是懷念XD 但依我原先的想法用BOW應該就是最直接的了
※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 14:01:23
推
05/17 13:58,
11月前
, 17F
05/17 13:58, 17F
→
05/17 13:58,
11月前
, 18F
05/17 13:58, 18F
噓
05/18 00:00,
11月前
, 19F
05/18 00:00, 19F
→
05/18 00:05,
11月前
, 20F
05/18 00:05, 20F
→
05/18 00:05,
11月前
, 21F
05/18 00:05, 21F
→
05/18 00:05,
11月前
, 22F
05/18 00:05, 22F
→
05/18 00:06,
11月前
, 23F
05/18 00:06, 23F
→
05/18 00:06,
11月前
, 24F
05/18 00:06, 24F
→
05/18 00:10,
11月前
, 25F
05/18 00:10, 25F
→
05/18 00:10,
11月前
, 26F
05/18 00:10, 26F
→
05/18 00:12,
11月前
, 27F
05/18 00:12, 27F
推
05/18 08:49,
11月前
, 28F
05/18 08:49, 28F
→
05/18 08:50,
11月前
, 29F
05/18 08:50, 29F
→
05/18 08:52,
11月前
, 30F
05/18 08:52, 30F
→
05/18 08:52,
11月前
, 31F
05/18 08:52, 31F
→
05/18 20:04,
11月前
, 32F
05/18 20:04, 32F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):