Re: [問題] 在學習程式語言，如何做到有效率的學習

看板Python作者vi000246 (Vi)時間7年前 (2018/01/02 16:33)推噓4(4推 0噓 9→)

留言13則, 4人參與, 7年前最新討論串2/5 (看更多)

講一下我寫爬蟲的思路好了第一步是分析網頁用chrome的F12 有個NetWork頁籤手動執行網頁看送出去的表頭長怎樣 Response是什麼我推薦用fiddler這軟體取代F12 它有個composer功能把你發送的request複製下來貼到這裡能直接發送同樣的request 你可以用這個功能研究是哪個header會影響response 做完第一步你可以把整個流程寫下來列出每個request 登入->進到影片列表->取得影片連結->換頁 p.s. 如果登入有驗證碼的話這網站你可以先跳過了這該死的圖要學很多東西才繞得過去通常會在取得影片連結這邊卡住這邊就只能看經驗了有的直接抓mp4的連結有的要用一連串的request才能取得真實連結有的用swf的player撥放還要反組譯swf看他怎麼request的這是我用來抓vimeo影片的程式碼 vimeo把影片連結藏在iframe裡 https://goo.gl/VSVjFb 第二步是清理數據成功取得html後就要想辨法拿到目標資料我以前是用正規表達式硬幹但現在有很多方便的東西像beautifulsoup 或是lxml 像這裡第77行開始就是用xpath抓的 https://goo.gl/G52XKH 取到影片連結後就簡單了取個不重覆的檔名存到硬碟就好列一下你會用到的關鍵字 html、javascript(選配有些網站會用js防爬蟲需要分析js程式碼)、正規表達式、xpath(這東東是類似jquery選擇器的東西) python的requests、beautifulsoup函式庫當然你也可以直接學selenium 就不需要上面繁瑣的分析request流程了但是想要爬難一點的網站基本功還是很重要的 selenium把一些很難克服的反爬蟲機制 ex. csrf token、用Ajax寫的單頁式網站 cookie等等很簡單就繞過了當然想速成的話用selenium是最快的你可以參考一下 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.204.135.153 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1514910816.A.267.html

推

Yshuan

01/03 01:18, 7年前 , 1^F

01/03 01:18, 1^F

推

f496328mm

01/03 07:35, 7年前 , 2^F

01/03 07:35, 2^F

推

jamesxxx1997

01/03 21:22, 7年前 , 3^F

01/03 21:22, 3^F