Re: [問題] 爬蟲post&header
靠杯 文章打一半被PTT吃掉 重打= =
爬蟲以我的觀點來看,就是網站資料的逆向工程
所以搞清楚網站資料的一些細節是很重要的
----
以原PO的網頁範例來說,原PO想爬的是某個表單送出之後的資料
那第一個重點是,我們到底對哪個網頁送出了我們的表單內容
所以我們先來觀察看看吧
https://i.imgur.com/67whTKj.png
從這張圖我們可以看到,每次我送出查詢資料時,他都會把資料送給
https://www.taiwanmobile.com/cs/public/storeAction.do?method=searchLBS
這個網站,所以目標搞清楚了,再來是思考需要送什麼資料
於是需要送什麼資料同一張圖也看的到
搞清楚這兩點之後,就可以先做第一次測試
res = requests.post(url, params = form_data)
print res.text
發現結果:https://i.imgur.com/izxeW4Z.png
耶,有東西了
所以我們可知,這查詢網頁沒有檢查其他的東西
原PO可以觀察chrome同頁面的response
會發現他回傳的內容就是我們爬蟲爬到的
然後,建議原PO可以了解一下什麼是json格式
例如這網址回傳回來的資料就是json格式的
那再利用json做處理就好
----
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.230.89.213
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1506175464.A.DBD.html
推
09/23 22:40, , 1F
09/23 22:40, 1F
→
09/23 23:18, , 2F
09/23 23:18, 2F
推
09/24 02:36, , 3F
09/24 02:36, 3F
推
09/24 08:44, , 4F
09/24 08:44, 4F
→
09/24 08:45, , 5F
09/24 08:45, 5F
→
09/24 15:43, , 6F
09/24 15:43, 6F
推
09/24 21:47, , 7F
09/24 21:47, 7F
推
09/24 23:30, , 8F
09/24 23:30, 8F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):