[問題] 爬蟲下拉式選單xml資料擷取

看板Python作者 (lulu)時間8年前 (2017/05/02 22:49), 8年前編輯推噓1(104)
留言5則, 3人參與, 最新討論串1/1
目標是登入網頁帳密,裡面有兩組下拉選單 其中一組是年度,每個年度有數組資料 資料內容類似問卷 要把每筆資料輸出成xml 點選不同筆資料url不變 我是用request登入 但不知道怎麼用request去抓選單的選項 目前想到用selenium find_element_by_name select_by_value 取得選單選項,再把變數用 f=requests.session() r=f.get(url, params=variable) 的方式抓每筆資料 但selenium的速度慢很多 不知道有沒有更直接的做法? ----- Sent from JPTT on my Samsung GT-I9300. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.240.162 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1493736570.A.F8B.html

05/04 08:18, , 1F
要看他網頁是怎麼做的,如果是用 js 動態的讀取資料
05/04 08:18, 1F

05/04 08:19, , 2F
那你就要想辦法去模仿發他發的request,轉成你的 code
05/04 08:19, 2F

05/04 08:20, , 3F
如果是資料一開始就在 htmlsource 裡面的話,隨便爬囉
05/04 08:20, 3F
資料不在html裡,請問要從他的code哪部分知道request的方法呢? ※ 編輯: royt (114.136.17.213), 05/05/2017 15:00:15

05/05 16:12, , 4F
用chrome dev tools可觀察request body
05/05 16:12, 4F

05/16 11:19, , 5F
所以要會讀xml ? html5? 還是CSS (對不起 超新手 :(
05/16 11:19, 5F
文章代碼(AID): #1P29nw-B (Python)