作者查詢 / a100006136
作者 a100006136 在 PTT [ DataScience ] 看板的留言(推文), 共15則
限定看板:DataScience
看板排序:
首頁
上一頁
1
下一頁
尾頁
5F→: 你的寄件人和收件人,上面有什麼跡象顯示它們是有用10/24 18:05
6F→: 的feature?10/24 18:05
7F推: 如果mail 小老鼠後面跟的字會有意義像是.com 或是.gov10/24 18:10
8F→: 會建議也可以對這些做segmentation,再用train好的英10/24 18:10
9F→: 文語言模型(web 文本train的)去抓feature10/24 18:10
10F→: 基本上其他非信件本文的內容,第一步是對每個材料去10/24 18:21
11F→: 思考如何量化,像是時間的格式、不同的寄信收件地址是10/24 18:21
12F→: 否進行編號、圖片則要用像素表示10/24 18:21
13F→: 然後再來就是每個材料適合的處理方式,時間的連續性可10/24 18:21
14F→: 以讓它獨立成為一個feature、地址的表示法可以像前面10/24 18:21
15F→: 說的視同文本取特徵、也可以當作不同的item 取one-hot10/24 18:21
16F→: 、圖片也是先接個cnn變成向量10/24 18:21
17F推: 至於模型的訓練選擇就如同1樓講的那樣,可以用多個模10/24 18:24
18F→: 型一起預測,也可以暴力concat這些特徵,每份郵件都10/24 18:24
19F→: 表示成一個向量後直接丟ML套件來分類也沒什麼不行10/24 18:24
首頁
上一頁
1
下一頁
尾頁