[問題] 自訂網頁關鍵字

看板R_Language作者 (光芒)時間8年前 (2016/07/04 23:17), 8年前編輯推噓0(0016)
留言16則, 4人參與, 最新討論串1/1
程度:自學一個月左右 問題:如何自訂搜尋網頁關鍵字 已安裝套件 tmcn 與 RCurl #讀取網頁 y<-url.exists("https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD") 想自訂關鍵字 關羽,關帝聖君(有關於關羽的別稱都搜尋出來) 匯出每種名稱的種類以及頻率 如關羽:10次 關公:5次 等等 請問大大們 是要設定甚麼函數啊?? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.189.123 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1467645432.A.012.html ※ 編輯: Tampa (36.225.189.123), 07/04/2016 23:19:42

07/04 23:28, , 1F
stringr的str_extract_all應該可以
07/04 23:28, 1F

07/04 23:31, , 2F

07/04 23:32, , 3F
這裡要有regexp的知識比較好做
07/04 23:32, 3F

07/05 00:20, , 4F
C 大 我已經把網頁宣告為y 他有辦法直接讀取y全部並搜尋嗎
07/05 00:20, 4F

07/05 04:09, , 5F
你可能問得太快了。爬一下文了解怎麼把全文轉字串,
07/05 04:09, 5F

07/05 04:09, , 6F
再對串字進行處理。
07/05 04:09, 6F

07/05 04:11, , 7F
在板上按 s 找找 "網頁" 這個關鍵字
07/05 04:11, 7F

07/05 08:19, , 8F
codeJob 不是以徵得嗎??? Orz
07/05 08:19, 8F

07/05 08:20, , 9F
還有 不要隨便刪除文~~~ @@
07/05 08:20, 9F

07/05 08:41, , 10F
P大,徵得算是找到人可諮詢 主要還是想靠自己
07/05 08:41, 10F

07/05 12:10, , 11F
#1KizQPJ
07/05 12:10, 11F

07/05 15:09, , 12F
抱歉 不知道 規則所以刪掉了
07/05 15:09, 12F

07/05 19:17, , 13F
httr的GET 加上 content
07/05 19:17, 13F

07/05 19:18, , 14F
就可以拿到網頁的文字了,要去掉html標籤的話
07/05 19:18, 14F

07/05 19:18, , 15F
用httr的GET + content + xml2的xml_text
07/05 19:18, 15F

07/05 19:18, , 16F
看一下前面我回的幾篇parsing網頁的文章吧
07/05 19:18, 16F
文章代碼(AID): #1NUdtu0I (R_Language)