[問題] 使用python 做類別歸檔

看板Python作者 (金牌台灣啤酒)時間4年前 (2020/04/01 00:57), 4年前編輯推噓4(404)
留言8則, 3人參與, 4年前最新討論串1/1
嗨大家晚安 感謝上次大家幫我解決球員傷病關鍵字提取的問題,今天又有新的問題要來麻煩各位了。 問題是這樣的,我有約莫一萬個與籃球有關的詞彙,而我想將它們一一分類,像是: NBA>組織 FREAK 1>球鞋 Karl Malone >球員 走步>規則 像是以上這樣子,我創了10個類別包括組織、球鞋、球員、傷病、品牌、服飾、獎項、個人數據、規則、其他 想問有什麼方法可以將這一萬個詞彙分類到屬於它們的類別呢? 我上網查了一陣只查到doccono這個方便標記的介面,好像比較少看到如何去訓練這種取向的模型 再麻煩各位如果知道的話還請和我說該查什麼關鍵字了,感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.35.153 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1585673832.A.93F.html

04/01 01:11, 4年前 , 1F
entity typing/linking
04/01 01:11, 1F
我查了一下發現有點類似,但不可避免還是需要上下文,雖然合理不過我手邊這些entity沒有上下文

04/01 10:46, 4年前 , 2F
關鍵在你畢竟還是需要不少已經分類好的詞做training,而且
04/01 10:46, 2F

04/01 10:47, 4年前 , 3F
直覺來看這個分類器可能正確率不會太高
04/01 10:47, 3F

04/01 10:50, 4年前 , 4F
詞分類的線索不多,這些類別又不少容易混淆
04/01 10:50, 4F

04/01 10:52, 4年前 , 5F
看到Nike到底是組織、品牌或服飾呢?
04/01 10:52, 5F

04/01 10:56, 4年前 , 6F
其中有一些引入前後文或人類知識會有幫助,比如裡面有動詞
04/01 10:56, 6F
的確,沒有上下文會是一個蠻困擾的狀況。不過現階段只是想做個粗淺的分類,因此把Nike分到品牌或組織都是可接受,但不會分到服飾或球鞋,除非這個字是「Nike風衣」,「Nike airmax 90」這種有特定形象的才會分到服飾或球鞋

04/01 10:57, 4年前 , 7F
那高機率屬於規則類、NBA球員列表資料庫直接比對等等
04/01 10:57, 7F
※ 編輯: moodoa3583 (114.137.35.153 臺灣), 04/01/2020 11:13:11 ※ 編輯: moodoa3583 (114.137.35.153 臺灣), 04/01/2020 11:24:48

04/01 11:25, 4年前 , 8F
可以收集很多文章 做 word2vec
04/01 11:25, 8F
文章代碼(AID): #1UWtPea_ (Python)