Re: [問題] 抓取網頁時所產生的問題．．．

看板java作者Gitangan (周大貓)時間17年前 (2008/04/16 11:36)推噓12(12推 0噓 11→)

留言23則, 9人參與討論串2/2 (看更多)

上次寫了這個之後，為了抗拒server的問題寫了幾個sleep，讓他跑一跑就睡一下.. 躲過server block IP 的機制... 現在我總共要在這個server抓取資料他的網址是以流水號去命名，共有4000萬筆… 而且並不是所有的編號網址裡面都有資料可能4000萬筆裡面只有300萬筆是有資料的，(不確定到底有多少筆有資料) 我也抓不到他流水編號的規則… 所以無法準確的抓到目標的資料，只能一個一個判斷，判斷是否存在網頁，存在時，抓取下來，scanner他的html檔，再抓取裡面的資料，不過這些我都解決了，現在要解決的是如何克服時間的問題... 我只能用stupid的方法… 從1 run到 4000萬...(無規則性) 請問一下有沒有什麼比較聰明的方法嗎？如果我這樣不眠不休(當然指電腦xd)的run下去至少快要一年去了.... 好像問了一個跟java沒關的問題... but 用java有辦法克服嗎？謝謝指導 ※ 引述《Gitangan (周大貓)》之銘言： : 最近寫一個java， : 抓取網頁上的內容， : 再來處理，擷取html裡的內容文字， : 可是在抓取網頁時， : 抓了幾些時間，譬如說10分鐘 or 1小時後， : 就會出現 : Exception in thread "main" java.io.IOException: Server returned HTTP response : code: 500 for URL: http://www.XXXX.com.tw/ : at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source) : 錯誤的這個網頁，實際貼到ie裡，是有網頁的。 -- 你有一種宅男的...神祕感 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.125.105.40

推

PsMonkey

04/16 12:35, , 1^F

04/16 12:35, 1^F

推

kyoby

04/16 13:06, , 2^F

04/16 13:06, 2^F

推

godfat

04/16 13:15, , 3^F

04/16 13:15, 3^F