[問題] htmlParse

看板R_Language作者 (Reader)時間9年前 (2015/05/03 23:52), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/2 (看更多)
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 請把以下不需要的部份刪除 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 1.請問htmlParse返回的結果是否有size限制? 我用下面一段code htmlParse返回只有到[[288]],似乎沒有抓完? 如果是size的限制有辦法解決嗎? 2.我試著用readLines讀同樣的網址,但因沒有換行符號,所有的資料只存成一行, 處裡這一類沒有換行符號的網址,有什麼好方法呢? [程式範例]: library(XML) URL = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2" test_doc = htmlParse(URL,encoding="big5") test = test_doc["//tr"] output: ...... <tr> <td bgcolor="#FAFAD2">2352 ?蔔??/td> <td bgcolor="#FAFAD2">TW0002352002</td> <td bgcolor="#FAFAD2">1996/07/22</td> <td bgcolor="#FAFAD2">銝箫?</td> <td bgcolor="#FAFAD2">?餉顺?简閮剖?璆?/td> <td bgcolor="#FAFAD2">ESVUFR</td> <td bgcolor="#FAFAD2"/> </tr> [[288]] <tr> <td bgcolor="#FAFAD2">2353 ?긿/td> </tr> [環境敘述]: R version 3.2.0 (2015-04-16) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 7 x64 (build 7601) Service Pack 1 locale: [1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese (Traditional)_Taiwan.950 LC_MONETARY=Chinese (Traditional)_Taiwan.950 [4] LC_NUMERIC=C LC_TIME=Chinese (Traditional)_Taiwan.950 attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] rvest_0.2.0 XML_3.98-1.1 RCurl_1.95-4.6 bitops_1.0-6 loaded via a namespace (and not attached): [1] httr_0.6.1 magrittr_1.5 tools_3.2.0 stringr_0.6.2 [關鍵字]: 選擇性,也許未來有用 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.126.95.55 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1430668375.A.EF2.html
文章代碼(AID): #1LHaHNxo (R_Language)
討論串 (同標題文章)
文章代碼(AID): #1LHaHNxo (R_Language)