[問題] 使用多執行緒抓網頁內容

看板Python作者oarpvfpre (永遠不夠花的薪水..)時間10年前 (2013/12/09 16:22)推噓4(4推 0噓 6→)

留言10則, 5人參與討論串1/1

最近在用 python 寫一個可同時抓取多個網頁的多執行緒程式呼叫 httplib 抓某個 url 的 response code (200, 404, 403, 401...) 參考 stackoverflow 的文章，使用 threading + Queue 的方式 http://stackoverflow.com/questions/2632520/what-is-the-fastest-way-to-send-100-000-http-requests-in-python 發現好像跟自己 for loop 去做的速度差不多研究一下之後發現，如果不牽扯到封包傳送的話 threading 的方式是可以 work 的 (直接把 httplib.getresponse 那段 mark 掉) 但是只要有傳送封包，multithread 就沒有辦法正常運作 (就只能一個一個送) 想請問各位這樣的問題是否因為 httplib, urllib, urllib2 等 lib 沒辦法同時傳送必須使用 twisted, asyncore 等方式實作，才能滿足我的需求謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 211.20.117.109

推

AlanSung

12/09 18:24, , 1^F

12/09 18:24, 1^F

推

darkgerm

12/09 18:28, , 2^F

12/09 18:28, 2^F

→

darkgerm

12/09 18:30, , 3^F

12/09 18:30, 3^F