[問題] word2Vec 自然語言處理 中文語料庫

看板Python作者時間6年前 (2017/07/06 14:50), 編輯推噓2(2010)
留言12則, 8人參與, 最新討論串1/1
最近在研究sentiment analysis 練習了一下如何使用word2vec 可是大多數範例好像都是用英文的 想試試看中文的效果如何,不知道有沒有已處理好的中文語料庫可以使用, 還是都要自己先收資料,做好斷詞等等處理才行呢? 小的剛入門還不太懂,若講到的詞有觀念錯誤或是奇怪的地方還請各位高手多多指教~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.41.89 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1499323807.A.B56.html

07/06 15:00, , 1F
中研院有詞庫 有人把它抓下來整理好 放在github上 斷詞的
07/06 15:00, 1F

07/06 15:00, , 2F
話 以前是都用jieba 現在好像有更好的
07/06 15:00, 2F

07/06 15:31, , 3F
用維基百科去處理
07/06 15:31, 3F

07/06 15:42, , 4F
有找到中研院的可是連結好像都掛了 再去github看看
07/06 15:42, 4F

07/06 15:42, , 5F
維基的話 不太懂要怎麼處理那個原始檔 可以指點一
07/06 15:42, 5F

07/06 15:42, , 6F
下方向嗎
07/06 15:42, 6F


07/06 23:50, , 8F
最近公司也在處理中文斷詞 真的有比Jieba好用的嗎?
07/06 23:50, 8F

07/08 01:50, , 9F
我是在p2看到的 可是我最愛很多個 一時找不到...
07/08 01:50, 9F

07/08 19:18, , 10F
可以分享一下GitHub 上整理的中研院的資源嗎?
07/08 19:18, 10F

07/08 20:00, , 11F
我記得中研院的詞庫要收錢了 如果沒記錯的話
07/08 20:00, 11F

07/14 17:33, , 12F
中文維基百科 再自己斷詞
07/14 17:33, 12F
文章代碼(AID): #1PNTsVjM (Python)