[問題] 新手爬蟲遇到Refresh如何解決?
各位前輩好,最近因為一點需求在撰寫爬蟲程式。先是參照了一些網路資源試作了一些常見網站(如高鐵)的爬蟲,雖然也碰上不少問題但都還算順利解決。
近期在整理某些領域的國內論文,因此花了不少時間在「臺灣博碩士論文知識加值系統」裡頭,想說能不能用爬蟲的方式,蒐集論文的基本資料再來篩選,但碰上了一個問題。
在用以前的經驗來撰寫爬蟲程式時,總會碰上重新導向的語法:「<META HTTP-EQUIV="Refresh" CONTENT="0; ……」,查了一些資料後發現requests.__部分有allow_redirects的參數可以使用,但就算設置其為False也沒辦法讀到東西。應該說,貌似讀到的東西也就只有那段重新導向的語法(或者是我程式上有大問題)。
後續也Google了相關的資料,但還是沒能解決這個問題,只好來此向各位詢問,希望能獲得一些指引或解答。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.134.106.248
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1496248868.A.8BE.html
→
06/01 01:38, , 1F
06/01 01:38, 1F
→
06/01 01:38, , 2F
06/01 01:38, 2F
→
06/01 01:39, , 3F
06/01 01:39, 3F
→
06/01 01:40, , 4F
06/01 01:40, 4F
→
06/01 01:41, , 5F
06/01 01:41, 5F
→
06/01 01:41, , 6F
06/01 01:41, 6F
→
06/01 01:42, , 7F
06/01 01:42, 7F
→
06/01 01:43, , 8F
06/01 01:43, 8F
→
06/01 01:43, , 9F
06/01 01:43, 9F
謝謝指點!
剛剛改了一下,使用soup.find("meta")得出了其內容並擷取出URL=之後的網址,用該網址重新進行requests,但仍然是碰到相同的情況……得出的結果與首次的結果相同。
兩次均是得出:
<META HTTP-EQUIV="Refresh" CONTENT="0;
URL=/cgi-bin/gs32/gsweb.cgi/login?o=dwebmge">
問題仍然無法解決Orz
→
06/01 09:31, , 10F
06/01 09:31, 10F
好的,我再試試。想說一般網頁不用登入就能查詢就沒注意到了。
要開始試的同時發現登入有驗證碼,看來短時間以我的功力有點困難 Orz
※ 編輯: jakeasa123 (140.138.152.2), 06/01/2017 12:52:16
推
06/01 13:17, , 11F
06/01 13:17, 11F