[閒聊] 爬蟲背景執行就失敗
前情提要:因為工作需要,要下載數千份文檔,老闆指示土法煉鋼一個一個按,於是我發憤開始學python…
手動下載的步驟是:
1.key年份跟代號按搜尋
2.跳出另一 tab 為搜尋結果
3.點結果中的文件連結,跳出另一 tab 有下載鏈
4.點下載鏈接下載
於是乎,用requests 試寫一段下載單一文件,成功。殊不知而,換了另一個文件就失敗。原來是因為網頁沒開著。
於是找到 selenium ,用各種方法都定位不到搜尋結果畫面中的連結位置。
最後的方法是用網址+selenium開搜尋結果畫面,就找到連結位置了,然後再把連結丟到requests終於可以順利下載,在這同時還用層層try except包裹住以及一堆sleep才順利抓到檔案。
昨晚臨走前我假會加了一句
opts.add_argument('--headless')
然後今天去運動路過辦公室就想說進去喵一眼
結果…抓到的檔案都是壞的,原本大小不一的檔案通通都11k,還損毀
◢▆▅▄▃ 崩╰(〒皿〒)╯潰 ▃▄▅▆◣
又要重跑了
註解掉昨晚臨走前加的那一行就又好了…
我週末下完檔案的夢想越來越不可能了
-----
Sent from JPTT on my Asus ASUS_X01BDA.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.44.137 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1616251198.A.C0D.html
推
03/29 19:27,
3年前
, 1F
03/29 19:27, 1F
→
03/29 19:27,
3年前
, 2F
03/29 19:27, 2F