[問題] 網頁爬蟲問題

看板Python作者 ( )時間5年前 (2018/08/08 23:40), 編輯推噓1(1010)
留言11則, 4人參與, 5年前最新討論串1/1
大家好,小弟在用python抓網頁遇到點問題 有些網頁的內容是透過js宣染畫出來的 所以我使用chromedriver的headless方式去抓取 抓pchome的商品清單,我可以抓到資料, 輸出的商品清單.html裡可看到商品 可是商品明細頁卻無法,只看到像是基本的base from 我有爬過momo,yahoo,博客萊都有成功,就只有pchome會這樣 不曉得問題出在哪裡 請大大幫忙,謝謝 附上source code https://github.com/godanimalsenso/PyWebTtest -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.143.183 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533742845.A.B34.html

08/09 00:51, 5年前 , 1F
加個 sleep 等 ajax 把網頁渲染完成
08/09 00:51, 1F

08/09 00:52, 5年前 , 2F
商品明細頁面資料是用 js 拉後台資料庫的資料再顯示上去
08/09 00:52, 2F

08/09 00:53, 5年前 , 3F
所以你只等 html load 完直接跑 page_source 就啥都沒
08/09 00:53, 3F

08/09 00:53, 5年前 , 4F
當然要聰明一點可以加個 code 去檢查 js load 完了沒
08/09 00:53, 4F

08/09 03:42, 5年前 , 5F
沒想到會是這樣的問題@@
08/09 03:42, 5F

08/09 03:42, 5年前 , 6F
我加了time.sleep(1)確實有出來了
08/09 03:42, 6F

08/09 03:43, 5年前 , 7F
我會再去找檢查js load ,謝謝
08/09 03:43, 7F

08/09 07:13, 5年前 , 8F
pchom 要去看network的hxr 裡面有一個文件滿滿的jso
08/09 07:13, 8F

08/09 07:13, 5年前 , 9F
n格式
08/09 07:13, 9F

08/09 09:37, 5年前 , 10F
推樓上,有json
08/09 09:37, 10F

08/09 19:46, 5年前 , 11F
抓xhr是比較快,不過我四個站都是css selector抓指定欄位
08/09 19:46, 11F
文章代碼(AID): #1RQmxziq (Python)