Re: [問題] 爬蟲新手請益

看板Python作者 (B翰)時間7年前 (2017/01/16 23:36), 編輯推噓4(404)
留言8則, 6人參與, 最新討論串2/2 (看更多)
※ 引述《ntumath (math mad)》之銘言: : 大家好,小弟我打算在這個寒假要學爬蟲 : 網路上我自己可以查到有BeautifulSoup,Scrapy,Selenium這三種 : 想請問這三種爬蟲有難易之分嗎,還是就先選定一種順順的學下去就好? 剛好有人問到,小弟又會一點點爬蟲,所以幫忙回答一下! 1. requests -> 擷取資訊。 將網頁上的資訊擷取下來,一般常用get還有post的方法 2. selenium -> 擷取資訊。 遇上一些比較難搞的動態網頁, 如Facebook的社團是沒辦法用API來取得資訊, 這時候就會用selenium操縱真實的瀏覽器來擷取資訊 3. BeautifulSoup -> parser剖析器。 將抓取回來的網頁資訊用DOM的方式剖析, 更容易取得網頁標籤裡的內容 4. Scrapy -> 爬蟲框架。 可以更有效率的去管理與執行爬蟲專案 所以一般需求的網路爬蟲直接使用requests與selenium獲取資料, BeautifulSoup剖析資料就能夠滿足需求 比較具規模的爬蟲專案可能就會使用scrapy框架 (一樣會用到requests, selenium, BeautifulSoup) 學習的順序應該是1、3先,再來2,最後再4 如說明有誤或不齊全,歡迎補充或指正!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.152.16 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1484581012.A.236.html

01/17 02:08, , 1F
感謝sky大解說~
01/17 02:08, 1F

01/17 03:29, , 2F
感謝sky大
01/17 03:29, 2F

01/17 05:26, , 3F
推!
01/17 05:26, 3F

01/17 12:46, , 4F
補充一下,正規表達在爬蟲也很常用到
01/17 12:46, 4F

01/19 11:03, , 5F
也可以學xpath 不錯用
01/19 11:03, 5F

01/27 14:19, , 6F
推。想請問一下大大,想熟練使用requests的用法要搜尋
01/27 14:19, 6F

01/27 14:19, , 7F
哪些關鍵字?因為我在網路上找到的幾乎都是使用Beautif
01/27 14:19, 7F

01/27 14:19, , 8F
ulSoup,謝謝
01/27 14:19, 8F
文章代碼(AID): #1OVEYK8s (Python)
討論串 (同標題文章)
文章代碼(AID): #1OVEYK8s (Python)