Re: [問題] 網頁爬蟲xpath設定問題
看板R_Language作者bluecadence (by any other name)時間7年前 (2017/04/08 11:22)推噓0(0推 0噓 0→)留言0則, 0人參與討論串2/2 (看更多)
用第一頁當例子:
url <- "https://www.zalora.com.tw/_c/rpc?&req=%7B%22method%22%3A%22Costa.List
CatalogProducts%22%2C%22params%22%3A%5B%7B%22category_id%22%3A%5B%224%
22%5D%2C%22limit%22%3A99%2C%22offset%22%3A0%2C%22segment%22%3A%22women%
22%2C%22dir%22%3A%22desc%22%2C%22sort%22%3A%22popularity%22%2C%22catalo
g_type%22%3A%22%22%2C%22url_key%22%3A%22%2Fwomen%2Fshoes%22%7D%5D%7D&
lang=zh"
library(jsonlite)
x <- fromJSON(url,flatten=T)
東西都在 x 裡,就自己清理一下囉
※ 引述《hslmax (越前)》之銘言:
: 程式諮詢:我想用R來網頁爬蟲,將購物網站的商品和價格給下載下來。
: 但是,以下這個網站的結構對新手的我來說怎麼try都失敗,想請教各位~
: 謝謝!
: [軟體熟悉度]:
: 入門(寫過其他程式,只是對語法不熟悉)
: [問題敘述]:
: 指定xpath收集商品的名稱及價格,但是筆者的能力無法正確指定xpath的路徑
: [程式範例]:
: #Target webpage
: base_url <- "https://www.zalora.com.tw"
: url <- "https://www.zalora.com.tw/women/shoes/?category_id=4&Page="
: ix <- seq(1,5,1)
: df.product.info <- data.frame()
: for (i in ix) {
: t_url <- paste0(url, i)
: doc <- read_html(t_url, encoding = "UTF-8")
: xpath <- '//div[@class="b-catalogList__itm js-catalogList__itm hasOverlay
: unit size1of3"]'
: product.brand <- xml_text(xml_find_all(doc, xpath))
: ......}
: 測試結果:0 obs of 1 variable.
: [環境敘述]:
: 請提供 sessionInfo() 的輸出結果,
: macOS 10.12.4、R3.3.2
: [關鍵字]:xpath
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 104.155.222.243
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1491621735.A.9B7.html
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):