[討論] 關於多執行緒爬蟲的觀念與問題

看板Python作者 (busystudent)時間8年前 (2016/04/25 19:17), 8年前編輯推噓2(2010)
留言12則, 5人參與, 最新討論串1/1
hi 最近幾天都在板上詢問爬蟲的問題,很感謝大家的指點,想再多問一點延伸的問題,關於多執行緒爬蟲的觀念。 我這幾天爬蟲下來,覺得我的程式碼除了沒用使用函式外,執行的效率真得不夠好,我要抓的網頁都超過1000個,執行下來時間與效率都不佳。 上stackoverflow發現有介紹多執行緒,感覺這是不錯的解決方法,想跟大家打聽哪裡有適合初學者的相關知識可以查詢,我這幾天找尋下來的結果,總感覺有一定的門檻在。 另外很好奇多執行緒可以用於我的程式碼嗎?像是我有這種 links = ['http://www.diigo.com/user/tony_swann/' + x for x in tag_list] 組合式的式子 stackoverflow上關於多執行緒的文 http://goo.gl/iYi8lJ -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.95.247 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1461583065.A.2C5.html ※ 編輯: busystudent (1.172.95.247), 04/25/2016 20:36:27

04/25 20:36, , 1F
慢慢爬比較好,爬太兇有可能被防火牆擋
04/25 20:36, 1F

04/25 20:57, , 2F
同意,我被擋好幾次,只好設定隨機1秒或5秒
04/25 20:57, 2F

04/25 23:22, , 3F
端看你想幹嘛 有必要做到每次都要全部都重抓嗎
04/25 23:22, 3F

04/25 23:23, , 4F
EX 爬二手交易版只需要每天UPDATE一天的量就好了
04/25 23:23, 4F

04/25 23:23, , 5F
全部都要重抓當然很花時間 有沒有不需要重抓的部分
04/25 23:23, 5F

04/25 23:24, , 6F
每次抓都會有的東西 那不如直接存在資料庫裡
04/25 23:24, 6F

04/26 08:40, , 7F
同意 M 大的看法,同樣的東西不需要一直重覆抓
04/26 08:40, 7F

04/26 14:13, , 8F
了解,看來我有不少地方可以修改
04/26 14:13, 8F

04/26 23:42, , 9F
scrapy 用這就可以跑多網頁爬蟲了
04/26 23:42, 9F

04/27 00:22, , 10F
有聽過scrapy下次來試試
04/27 00:22, 10F

05/01 04:52, , 11F
用thread會有全局鎖的瓶頸,可以用multiprocessing
05/01 04:52, 11F

05/01 04:52, , 12F
的process pool來跑
05/01 04:52, 12F
文章代碼(AID): #1N7VpPB5 (Python)