Re: [問題] python 爬取pchome資料

看板Python作者wsybu (%小步步%)時間7年前 (2018/12/26 10:32)推噓0(0推 0噓 1→)

留言1則, 1人參與討論串3/3 (看更多)

※ 引述《BigBank ( )》之銘言： : 各位前輩好，最近也在嘗試爬pchome，雖然知道是javascript，但還是不太能解決 : 爬文後很幸運挖到這篇也照了這不是ptt大的code測試 : 推 Thisisnotptt: 剛剛試了一下，應該是JS的問題，所以我改用selenium 04/11 13:38 : → Thisisnotptt: 之後就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39 : 但同樣的code 執行好多次才能成功一次是我的電腦業障重嗎OAQQ : 其餘的失敗也沒什麼訊息就是只抓回空殼 (我猜應該是沒有成功執行js?) : 我目前要做的是已經有一堆pchome網址想要從網址爬回對應商品 : 發現雖然head裡的meta就有了但也不知道該如何簡單的只抓回這個部分 : 所以總結想請問各位前輩： : 1.沒辦法每次都抓回網頁，是pchome的防範機制嗎？該何解QQ : 2.還是說有更簡單的方法可以只抓回head那個部分，覺得抓回整個網站有點overkilled : 但現在就連硬要抓整個網站回來都做不到...(￣▽￣＃)﹏﹏ : 感謝各位前輩指點迷津OTZ 想借這篇回一下.. pchome24hr頁面是不是不能用 selenium + chrome(headless)了? 只要打開headless，頁面都是 "目前因網路連線問題無法造訪網站，正在處理中，請您耐心稍候。" (不開headless都可以正常抓取) 不知道pchome是怎樣在主機端偵測到的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.32.15 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1545791579.A.AE1.html

→

wsybu

12/26 10:58, 7年前 , 1^F

12/26 10:58, 1^F

‣ 返回看板[ Python ] 程設

‣ 更多 wsybu 的文章

文章代碼(AID): #1S8kXRhX (Python)