Re: [問題] Rwordseg自定義詞庫

看板R_Language作者 (零度空間)時間7年前 (2017/04/25 22:13), 編輯推噓0(001)
留言1則, 1人參與, 最新討論串2/2 (看更多)
借標題一下 新的中文 文字採礦 package https://github.com/taiyun/chinese.misc 可以研究看看 ※ 引述《dustnight (一起做個有溫度的人)》之銘言: : [問題類型]:程式諮詢 : [軟體熟悉度]: : 新手(沒寫過程式,R 是我的第一次) : [問題敘述]: : 最近在做text mining的練習,由於斷詞的過程需要考量一些專有名詞, : 因此採用Rwordseg進行斷詞,斷詞的過程當中,會遇到安裝詞典/或是使用自定義詞典 : 的狀況,產生了一些問題想來請問前輩們。 : 1. 在使用installDict時,想安裝NTUSD的資料辭典,使用以下指令: : installDict(file.choose(),"positive",dicttype="text") : 但是安裝後卻出現 : 1 words were loaded! ... New dictionary 'positive' was installed! : There were 50 or more warnings (use warnings() to see the first 50) : Warning messages: : 1: In readLines(dictpath, encoding = dic.enc) : : line 1 appears to contain an embedded nul : 等問題,看起來是有安裝成功但是點進去dic檔案裡面看卻發現只有一個詞彙(原本txt檔案 : 想來請問各位前輩們是否有遇到過類似問題,又該怎麼解決? : 2. : 在自定義詞庫時,我用insertwords("畢業證書",save=T)來增加畢業證書這個詞彙 : 但是在segmentCN("自己的畢業證書自己撿")做測試時,卻仍然會有 : [1] "自己" "的" "畢業" "證書" "自己" "撿" : 的狀況,(反而結巴還會斷出畢業證書...) : 是我沒有增加詞庫成功嗎? : 3. : 目前不使用結巴的原因在於不確定結巴是否可以自行增加詞庫 : [環境敘述]: : R version 3.3.3 (2017-03-06) : Platform: x86_64-apple-darwin13.4.0 (64-bit) : Running under: OS X El Capitan 10.11.6 : locale: : [1] zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8 : attached base packages: : [1] stats graphics grDevices utils datasets methods base : other attached packages: : [1] igraph_1.0.1 wordcloud_2.5 RColorBrewer_1.1-2 Rwordseg_0.2-1 : [5] jiebaR_0.9.1 jiebaRD_0.1 rJava_0.9-8 tm_0.7-1 : [9] NLP_0.1-9 tmcn_0.1-4 : loaded via a namespace (and not attached): : [1] magrittr_1.5 parallel_3.3.3 tools_3.3.3 Rcpp_0.12.7 slam_0.1-38 : [關鍵字]: : text mining, Rwordseg -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.165.120.15 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1493129627.A.C25.html

05/01 17:41, , 1F
剛剛試了一下,繁體中文的資料會變亂碼。
05/01 17:41, 1F
文章代碼(AID): #1O_rcRmb (R_Language)
文章代碼(AID): #1O_rcRmb (R_Language)