[問題] 關於網頁爬文的連線設定消失

看板java作者lueichun時間7年前 (2018/11/08 17:32)推噓1(1推 0噓 7→)

留言8則, 4人參與討論串1/1

我現在嘗試從PTT八卦版爬文，想爬出鄉民推文的ID和內容。我透過八卦版的URL，連線到八卦版： https://www.ptt.cc/bbs/Gossiping/index.html 這是八卦版最新網頁的URL。前一頁的URL： https://www.ptt.cc/bbs/Gossiping/index39000.html 多出「39000」這個頁碼，依此類推，前面的網頁，頁碼會是 38999->38998->38997......一路往下。我現在的問題是，這樣的話每一頁的URL都不一樣，那麼是不是變成要爬每一頁時，都變成要重新new一個新的connection？？但是真的這樣做的話，光是開啟、關閉connection就耗掉很多時間了。我有使用多執行緒，讓code執行的快一點，但也就快一點而已，整體來看還是跑得很慢。所以想請問，現在面對這麼多的url，從39000->1，總共快4萬筆url，有沒有比較快的連線方式呢？不然我現在的作法，是一個url就開一個connection，真的很花資源又很花時間。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.167.49.134 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1541669578.A.C72.html

→

sqrt998001

11/08 19:25, , 1^F

11/08 19:25, 1^F

推

swpoker

11/09 08:09, , 2^F

11/09 08:09, 2^F

→

lueichun

11/09 12:58, , 3^F

11/09 12:58, 3^F