[問題] python淘寶爬蟲
這問題可能不是單純和python有關
不過還是在這邊問問看
最近在研究使用淘寶爬蟲
不過剛開始就遇到了一點困難
http://0rz.tw/acJsC A網址
http://0rz.tw/inzfh B網址
上面兩個都是淘寶的網址
當直接看原始檔時兩個都可以看到一個名為g_page_config
含有完整網頁內容的json表格
不過當我使用urllib2.urlopen去抓的時候
A網址可以抓到g_page_config的資料
但B網址抓回來的似乎是完全不同的東西
只要是商品搜尋的頁面似乎都會得到這樣的結果
但我不太懂為什麼A可以B卻不行
這樣是否代表淘寶有特別阻擋商品搜尋頁面?
只能使用模擬瀏覽器行為的方式去把網頁json都load進來後才抓?
或者有沒有方式可以達到同樣的目的?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.0.247
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1423990601.A.4F1.html
※ 編輯: dondondie (114.25.0.247), 02/15/2015 18:09:10
推
02/20 14:18, , 1F
02/20 14:18, 1F
→
02/23 15:14, , 2F
02/23 15:14, 2F
推
02/24 13:38, , 3F
02/24 13:38, 3F
→
02/26 10:00, , 4F
02/26 10:00, 4F
推
02/27 11:06, , 5F
02/27 11:06, 5F