作者查詢 / a100006136

總覽項目: 發文 | 留言 | 暱稱
作者 a100006136 在 PTT [ DataScience ] 看板的留言(推文), 共15則
限定看板:DataScience
首頁
上一頁
1
下一頁
尾頁
[問題] 文本分類加入非文本內容特徵
[ DataScience ]26 留言, 推噓總分: +5
作者: ctr1 - 發表於 2019/10/16 21:34(6年前)
5Fa100006136: 你的寄件人和收件人,上面有什麼跡象顯示它們是有用10/24 18:05
6Fa100006136: 的feature?10/24 18:05
7Fa100006136: 如果mail 小老鼠後面跟的字會有意義像是.com 或是.gov10/24 18:10
8Fa100006136: 會建議也可以對這些做segmentation,再用train好的英10/24 18:10
9Fa100006136: 文語言模型(web 文本train的)去抓feature10/24 18:10
10Fa100006136: 基本上其他非信件本文的內容,第一步是對每個材料去10/24 18:21
11Fa100006136: 思考如何量化,像是時間的格式、不同的寄信收件地址是10/24 18:21
12Fa100006136: 否進行編號、圖片則要用像素表示10/24 18:21
13Fa100006136: 然後再來就是每個材料適合的處理方式,時間的連續性可10/24 18:21
14Fa100006136: 以讓它獨立成為一個feature、地址的表示法可以像前面10/24 18:21
15Fa100006136: 說的視同文本取特徵、也可以當作不同的item 取one-hot10/24 18:21
16Fa100006136: 、圖片也是先接個cnn變成向量10/24 18:21
17Fa100006136: 至於模型的訓練選擇就如同1樓講的那樣,可以用多個模10/24 18:24
18Fa100006136: 型一起預測,也可以暴力concat這些特徵,每份郵件都10/24 18:24
19Fa100006136: 表示成一個向量後直接丟ML套件來分類也沒什麼不行10/24 18:24
首頁
上一頁
1
下一頁
尾頁