[問題] 使用selenium爬蟲被偵測為機器人

看板Python作者 (xyz6206a)時間7年前 (2016/06/30 11:58), 編輯推噓0(0015)
留言15則, 7人參與, 最新討論串1/1
各位前輩大家好! 我日前使用selenium寫爬蟲時 遇到網頁偵測為機器人而跳出 需要寫認證碼阻擋,而我自己使用 time.sleep()去延遲下載時間 好像也沒法阻止機器人偵測 請問這個原因是? 請問一下有其他解決方法嗎? 下圖為我遇到的狀況 http://imgur.com/CyfWI5k
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.25.106 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1467259128.A.3AA.html

06/30 12:07, , 1F
改 user agent 看看?
06/30 12:07, 1F

06/30 12:08, , 2F
我笨了,不好意思 = =...
06/30 12:08, 2F

06/30 12:38, , 3F
如果那個網站當初設計,是採用同Ip請求次數來阻擋的話
06/30 12:38, 3F

06/30 12:38, , 4F
,剛好你電腦為浮動IP的話,用系統命令斷線重連就可以
06/30 12:38, 4F

06/30 12:38, , 5F
避開了
06/30 12:38, 5F

06/30 12:44, , 6F
這個網站要求一定要用學校IP,所以不知道是否可以用斷線
06/30 12:44, 6F

06/30 12:45, , 7F
方式
06/30 12:45, 7F

06/30 13:03, , 8F
原po要爬的站跟你們學校的合約,確定是允許「使用軟體
06/30 13:03, 8F

06/30 13:03, , 9F
大量下載」的嗎?
06/30 13:03, 9F

06/30 13:17, , 10F
你也可以去找大量的proxy或是用tor來避開這個問題
06/30 13:17, 10F

06/30 15:41, , 11F
其實我也不確定是否允許大量下載這是老師的計畫
06/30 15:41, 11F

06/30 18:43, , 12F
換個作業系統看看 少用win
06/30 18:43, 12F

06/30 22:21, , 13F
看有沒有猜captcha次數限制,沒的話寫OCR來破解,這
06/30 22:21, 13F

06/30 22:21, , 14F
個captcha看起來不難解
06/30 22:21, 14F

07/04 19:20, , 15F
r大是指要用辨識程式去辨別嗎?
07/04 19:20, 15F
文章代碼(AID): #1NT9ZuEg (Python)