作者查詢 / a100006136

總覽項目：發文 | 留言 | 暱稱

作者 a100006136 在 PTT [ DataScience ] 看板的留言(推文), 共15則

限定看板：DataScience

看板排序：

首頁

尾頁

[ DataScience ]26 留言, 推噓總分: +5

作者: ctr1 - 發表於 2019/10/16 21:34(6年前)

5^F→a100006136: 你的寄件人和收件人，上面有什麼跡象顯示它們是有用10/24 18:05

6^F→a100006136: 的feature?10/24 18:05

7^F推a100006136: 如果mail 小老鼠後面跟的字會有意義像是.com 或是.gov10/24 18:10

8^F→a100006136: 會建議也可以對這些做segmentation，再用train好的英10/24 18:10

9^F→a100006136: 文語言模型（web 文本train的）去抓feature10/24 18:10

10^F→a100006136: 基本上其他非信件本文的內容，第一步是對每個材料去10/24 18:21

11^F→a100006136: 思考如何量化，像是時間的格式、不同的寄信收件地址是10/24 18:21

12^F→a100006136: 否進行編號、圖片則要用像素表示10/24 18:21

13^F→a100006136: 然後再來就是每個材料適合的處理方式，時間的連續性可10/24 18:21

14^F→a100006136: 以讓它獨立成為一個feature、地址的表示法可以像前面10/24 18:21

15^F→a100006136: 說的視同文本取特徵、也可以當作不同的item 取one-hot10/24 18:21

16^F→a100006136: 、圖片也是先接個cnn變成向量10/24 18:21

17^F推a100006136: 至於模型的訓練選擇就如同1樓講的那樣，可以用多個模10/24 18:24

18^F→a100006136: 型一起預測，也可以暴力concat這些特徵，每份郵件都10/24 18:24

19^F→a100006136: 表示成一個向量後直接丟ML套件來分類也沒什麼不行10/24 18:24

首頁

尾頁