[問題] text2vec 在windows中文顯示問題

看板R_Language作者 (我最討厭人家裝老)時間7年前 (2016/08/16 10:50), 編輯推噓2(202)
留言4則, 3人參與, 最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 請把以下不需要的部份刪除 開發者(有撰寫R 的套件經驗) [問題敘述]: 目前使用的是windows R 3.2.5 用套件jiebaR做中文斷詞,段詞的結果沒問題 但是要使用text2vec做字詞向量化分析就會有亂碼的問題 不曉得有沒有方法可以修正 另外我在MAC和Linux上使用相同的code顯示上都很正確 所以直覺應該是windows設定的問題 還想請問該如何設定中文才可以正確顯示 感謝 [程式範例]: > tw="R: 最流行的統計語言" > cutter=worker(bylines=TRUE) > words=segment(tw,cutter) > words [[1]] [1] "R" "最" "流行" "的" "統計" "語言" > library(text2vec) > > #create iterator > a.token=itoken(words) > > a.vocab<-create_vocabulary(a.token, ngram=c(1, 1)) > a.vocab $vocab terms terms_counts doc_counts 1: 隤靗\xa8\u0080 1 1 2: 蝯梯\xa8\x88 1 1 3: \xe7\x9a\x84 1 1 4: \xe6\x9c\u0080 1 1 5: 瘚眎\xa1\x8c 1 1 6: R 1 1 $ngram ngram_min ngram_max 1 1 $document_count [1] 1 $stopwords character(0) attr(,"class") [1] "text2vec_vocabulary" [環境敘述]: R version 3.2.5 (2016-04-14) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 7 x64 (build 7601) Service Pack 1 [關鍵字]: jiebaR;text2vec;中文斷詞 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.110.59.164 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1471315852.A.8F1.html

08/16 12:21, , 1F
編碼問題吧 R 我不熟 但解決方法可能是轉碼
08/16 12:21, 1F

08/16 14:22, , 2F
library(stringi); stri_encode(words,"UTF-8")
08/16 14:22, 2F

08/16 16:37, , 3F
感謝推文回覆,測試了用stri_encode可以轉碼回來
08/16 16:37, 3F

08/16 16:38, , 4F
但是沒辦法從套件源頭修正,不過單純看結果還行
08/16 16:38, 4F
文章代碼(AID): #1Nid-CZn (R_Language)