Re: [問題] 抓取網頁時所產生的問題...
上次寫了這個之後,
為了抗拒server的問題
寫了幾個sleep,讓他跑一跑就睡一下..
躲過server block IP 的機制...
現在我總共要在這個server抓取資料
他的網址是以流水號去命名,共有4000萬筆…
而且並不是所有的編號網址裡面都有資料
可能4000萬筆裡面只有300萬筆是有資料的,(不確定到底有多少筆有資料)
我也抓不到他流水編號的規則…
所以無法準確的抓到目標的資料,
只能一個一個判斷,判斷是否存在網頁,
存在時,抓取下來,scanner他的html檔,
再抓取裡面的資料,不過這些我都解決了,
現在要解決的是如何克服時間的問題...
我只能用stupid的方法…
從1 run到 4000萬...(無規則性)
請問一下有沒有什麼比較聰明的方法嗎?
如果我這樣不眠不休(當然指電腦xd)的run下去
至少快要一年去了....
好像問了一個跟java沒關的問題...
but 用java有辦法克服嗎?
謝謝指導
※ 引述《Gitangan (周大貓)》之銘言:
: 最近寫一個java,
: 抓取網頁上的內容,
: 再來處理,擷取html裡的內容文字,
: 可是在抓取網頁時,
: 抓了幾些時間,譬如說10分鐘 or 1小時後,
: 就會出現
: Exception in thread "main" java.io.IOException: Server returned HTTP response
: code: 500 for URL: http://www.XXXX.com.tw/
: at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
: 錯誤的這個網頁,實際貼到ie裡,是有網頁的。
--
你有一種宅男的...神祕感
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.125.105.40
推
04/16 12:35, , 1F
04/16 12:35, 1F
推
04/16 13:06, , 2F
04/16 13:06, 2F
推
04/16 13:15, , 3F
04/16 13:15, 3F
推
04/16 14:11, , 4F
04/16 14:11, 4F
→
04/16 15:22, , 5F
04/16 15:22, 5F
推
04/16 15:27, , 6F
04/16 15:27, 6F
推
04/16 15:33, , 7F
04/16 15:33, 7F
→
04/16 15:50, , 8F
04/16 15:50, 8F
→
04/16 15:52, , 9F
04/16 15:52, 9F
推
04/16 22:48, , 10F
04/16 22:48, 10F
推
04/16 23:45, , 11F
04/16 23:45, 11F
→
04/17 01:21, , 12F
04/17 01:21, 12F
→
04/17 01:22, , 13F
04/17 01:22, 13F
→
04/17 01:29, , 14F
04/17 01:29, 14F
→
04/17 01:33, , 15F
04/17 01:33, 15F
推
04/17 03:34, , 16F
04/17 03:34, 16F
推
04/17 03:40, , 17F
04/17 03:40, 17F
→
04/17 07:08, , 18F
04/17 07:08, 18F
推
04/17 19:18, , 19F
04/17 19:18, 19F
→
04/17 23:43, , 20F
04/17 23:43, 20F
→
04/17 23:46, , 21F
04/17 23:46, 21F
推
04/19 01:13, , 22F
04/19 01:13, 22F
→
04/19 03:16, , 23F
04/19 03:16, 23F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):