[問題] 爬買賣日報表CAPTCHA問題

看板Python作者 (威威)時間6年前 (2018/02/28 09:40), 編輯推噓1(1010)
留言11則, 6人參與, 6年前最新討論串1/1
Hi 各位好, 最近開始學習python進行爬蟲,參考網路上的大數軟體教學, 先進行半自動化的爬取, 取得驗證碼圖片後再手動輸入驗證碼, 以上部份都沒有問題, 但由於在進行證交所買賣日報表的爬取時, 因為買賣日報表是aspx, 所以一開始遇到__VIEWSTATE及__EVENTVALIDATION 變數會變動問題,所幸在本版有爬文知道如何解決此問題 (先利用GET爬取 此兩變數,再利用POST送出實際的請求) 但最後送出POST後會發現爬取回來的網頁內容會是 "驗證碼錯誤" 買賣日報表有兩個FRAME: Menu及Content, Menu會出現驗證碼錯誤;Content則為空白 想請問各位大神, 是否可提供小弟一個方向呢? ps. 在正式送出POST前,只會選一個證券代號, 再選擇後, 我查看Chrome 開發者工具 應該並沒有額外的POST請求,所以我所爬取的__VIEWSTATE應該是沒問題的 請參考我寫的code (jupyter notebook): https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb -- 那天在捷運站被機器吃錢, 更機車的是站務跟我落英文說: 吐幣or not 吐幣,That is the question... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.146.45 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519782022.A.172.html

02/28 18:50, 6年前 , 1F
你買賣日報進去的時候不用填驗證碼嗎?
02/28 18:50, 1F

02/28 21:58, 6年前 , 2F
需要,我是先取得驗證碼圖片後,formdata手動填,有利
02/28 21:58, 2F

02/28 21:58, 6年前 , 3F
用session
02/28 21:58, 3F

02/28 21:59, 6年前 , 4F
目前還沒有做到自動的
02/28 21:59, 4F

02/28 22:01, 6年前 , 5F
手動填完驗證碼後送post出去
02/28 22:01, 5F

03/01 10:19, 6年前 , 6F
若有需要識別驗證碼,可站內
03/01 10:19, 6F

03/01 18:11, 6年前 , 7F
目前我是卡在送post出去驗證碼不過,驗證碼為手填
03/01 18:11, 7F

03/03 06:57, 6年前 , 8F

03/06 03:38, 6年前 , 9F
03/06 03:38, 9F

03/06 04:16, 6年前 , 10F
03/06 04:16, 10F

03/06 04:29, 6年前 , 11F
03/06 04:29, 11F
文章代碼(AID): #1QbWY65o (Python)