[問題] 中文 詞向量 相似度

看板DataScience作者 (metalheads)時間3年前 (2020/08/08 00:19), 3年前編輯推噓9(9015)
留言24則, 8人參與, 3年前最新討論串1/1
各位板友好 小弟目前有一些客戶的瀏覽行為標籤,例如: '輕食' '農業' '退休' '連鎖咖啡' '連鎖速食餐廳' '遊戲' '遊樂園' '遊輪' 這種標籤,雖然已經是比較粗略的分類了,但整體還是有好幾百個 如果要人工手動去歸類成大類會非常費工 所以我想要用詞向量的方式進行集群,把相似的歸類在一起 不知道有什麼預訓練好的model可以算大量字詞的相似度 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.116.180.58 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1596817153.A.FE0.html ※ 編輯: s3714443 (150.116.180.58 臺灣), 08/08/2020 00:20:07

08/08 07:47, 3年前 , 1F
中文Bert?
08/08 07:47, 1F

08/08 08:17, 3年前 , 2F
其實可以認真算算標記這個到底需要多久,有時候可能真的
08/08 08:17, 2F

08/08 08:17, 3年前 , 3F
找不到符合你需求的支援還是得使用工人智慧QQ
08/08 08:17, 3F

08/08 08:20, 3年前 , 4F
而且幾百個把分類定義清楚,先把明顯的大類分出來,再細
08/08 08:20, 4F

08/08 08:20, 3年前 , 5F
劃分小類感覺一個禮拜也夠,不要怕很花時間有時候時間算
08/08 08:20, 5F

08/08 08:20, 3年前 , 6F
出來的比你想像的少,加油
08/08 08:20, 6F

08/08 08:21, 3年前 , 7F
之後只用一般的算法去做分類就可以,但如果你是因為上級
08/08 08:21, 7F

08/08 08:21, 3年前 , 8F
需求要用到NLP我就沒辦法了
08/08 08:21, 8F

08/08 10:06, 3年前 , 9F
自己train一個word2vec model?
08/08 10:06, 9F

08/08 12:46, 3年前 , 10F
Fasttext 有中文 pretrained,可以自己抓下來算距離
08/08 12:46, 10F

08/08 17:02, 3年前 , 11F
直接word2vec不就好了??
08/08 17:02, 11F

08/15 14:53, 3年前 , 12F
用word2vec或BERT拿到embedding 再算cos similarity 就好
08/15 14:53, 12F

08/15 14:53, 3年前 , 13F
08/15 14:53, 13F

09/04 12:47, 3年前 , 14F
BERT直接算cosine similarity你會fail
09/04 12:47, 14F

09/04 12:47, 3年前 , 15F
The construction of BERT makes it unsuitable for sem
09/04 12:47, 15F

09/04 12:47, 3年前 , 16F
antic similarity search as well as for unsupervised
09/04 12:47, 16F

09/04 12:47, 3年前 , 17F
tasks like clustering.
09/04 12:47, 17F

09/04 12:49, 3年前 , 18F
不過我不太清楚中文有什麼開源的任務來fine tune..XD
09/04 12:49, 18F

09/04 12:50, 3年前 , 19F
英文的話SBERT是利用NLI與Siamese network來讓bert的vec
09/04 12:50, 19F

09/04 12:50, 3年前 , 20F
tor representation可以直接用cosine similarity來衡量
09/04 12:50, 20F

09/04 12:50, 3年前 , 21F
語意相似~
09/04 12:50, 21F

09/04 12:53, 3年前 , 22F
我一開始也期待BERT能夠捕捉到”語意” 但是實驗看來他
09/04 12:53, 22F

09/04 12:53, 3年前 , 23F
的output並不是一個vector space的representation~
09/04 12:53, 23F

10/16 21:58, 3年前 , 24F
fasttext跟wiki都有pre-trained好的東西
10/16 21:58, 24F
文章代碼(AID): #1VBNy1_W (DataScience)