[問題] 移除WordNet以外的字

看板R_Language作者nina8598 (Nina)時間8年前 (2017/12/13 22:43)推噓1(1推 0噓 3→)

留言4則, 2人參與討論串1/1

[問題類型]: 我想用R 做某件事情，但是我不知道要怎麼用R 寫出來 [軟體熟悉度]: 新手 [問題敘述]：小妹最近在做資料清理但資料來源是社群網站的留言，所以有很多不同的語言和沒有意義的詞我已經把非英文的字刪掉了，如下方程式碼 (files是指多個txt檔) for (i in 1:length(files)) { files[[i]] <- gsub('[^ -~]', '', files[[i]]) # remove non-English } wordcorpus <- Corpus(VectorSource(files)) #形成我的語料庫但還是有詞是由英文字母組成的其他國家文字留著(例如德文Spielzeug、波蘭文Zabawki …)，或是留言者打錯字等無法意會的詞留著因此我想用R的package “wordnet” 讓我的資料內容對應WordNet字典裡的詞，只要不是屬於這字典裡面的詞就移除掉，但我實在是不知道該怎麼做，想請問有高手可以解決嗎? 另外想請問如果要用這個方法要先把詞形還原嗎?如果需要又該如何做呢? 剩下的一般移除停止詞、數字、標點符號我都ok，就剩這些問題需要解決，麻煩大家幫幫忙了謝謝~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.204.10.15 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1513176203.A.4BD.html

→

kial

12/14 20:05, 8年前 , 1^F

12/14 20:05, 1^F

→

kial

12/14 20:08, 8年前 , 2^F

12/14 20:08, 2^F

推

cywhale

12/14 20:27, 8年前 , 3^F

12/14 20:27, 3^F