Re: [問題] 抓取網頁時所產生的問題...

看板java作者 (周大貓)時間16年前 (2008/04/16 11:36), 編輯推噓12(12011)
留言23則, 9人參與, 最新討論串2/2 (看更多)
上次寫了這個之後, 為了抗拒server的問題 寫了幾個sleep,讓他跑一跑就睡一下.. 躲過server block IP 的機制... 現在我總共要在這個server抓取資料 他的網址是以流水號去命名,共有4000萬筆… 而且並不是所有的編號網址裡面都有資料 可能4000萬筆裡面只有300萬筆是有資料的,(不確定到底有多少筆有資料) 我也抓不到他流水編號的規則… 所以無法準確的抓到目標的資料, 只能一個一個判斷,判斷是否存在網頁, 存在時,抓取下來,scanner他的html檔, 再抓取裡面的資料,不過這些我都解決了, 現在要解決的是如何克服時間的問題... 我只能用stupid的方法… 從1 run到 4000萬...(無規則性) 請問一下有沒有什麼比較聰明的方法嗎? 如果我這樣不眠不休(當然指電腦xd)的run下去 至少快要一年去了.... 好像問了一個跟java沒關的問題... but 用java有辦法克服嗎? 謝謝指導 ※ 引述《Gitangan (周大貓)》之銘言: : 最近寫一個java, : 抓取網頁上的內容, : 再來處理,擷取html裡的內容文字, : 可是在抓取網頁時, : 抓了幾些時間,譬如說10分鐘 or 1小時後, : 就會出現 : Exception in thread "main" java.io.IOException: Server returned HTTP response : code: 500 for URL: http://www.XXXX.com.tw/ : at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source) : 錯誤的這個網頁,實際貼到ie裡,是有網頁的。 -- 你有一種宅男的...神祕感 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.125.105.40

04/16 12:35, , 1F
我只能說,建議你 hack 那個 Server [逃]
04/16 12:35, 1F

04/16 13:06, , 2F
求hack server的方法...
04/16 13:06, 2F

04/16 13:15, , 3F
其實有些不見得真的是某個規則,而是藏在哪裡的資料
04/16 13:15, 3F

04/16 14:11, , 4F
你那麼需要他的資料, 花錢跟他買吧XD
04/16 14:11, 4F

04/16 15:22, , 5F
囧z 這個問題也是不可抗拒嗎XD
04/16 15:22, 5F

04/16 15:27, , 6F
其實不一定,有時候前端是能找到一些資訊的
04/16 15:27, 6F

04/16 15:33, , 7F
不如貼url大家分析下...
04/16 15:33, 7F

04/16 15:50, , 8F
17640598 ~ 54810514 我要從17640598 抓到 54810514...
04/16 15:50, 8F

04/16 15:52, , 9F
不是每個編號裡面都有東西 ...
04/16 15:52, 9F

04/16 22:48, , 10F
300萬筆不是小數目耶 怎麼不試著跟webmaster討論一下
04/16 22:48, 10F

04/16 23:45, , 11F
沒有上一筆下一筆的link嗎 或是rss之類的...
04/16 23:45, 11F

04/17 01:21, , 12F
這四千萬個流水號 可能原本都有東西 可是時間久了 太久沒
04/17 01:21, 12F

04/17 01:22, , 13F
有完成程序,系統會把這個編號的內容刪掉,形成空號...
04/17 01:22, 13F

04/17 01:29, , 14F
網站的頁面上看不到17640598號碼的網頁了..是自己輸入才
04/17 01:29, 14F

04/17 01:33, , 15F
有的,因為太老遠的資料,所以用下一頁也找不到...
04/17 01:33, 15F

04/17 03:34, , 16F
你多找幾個proxy , 一次用多個proxy 同時去存取 , 速度應該
04/17 03:34, 16F

04/17 03:40, , 17F
可以快上幾倍?.?
04/17 03:40, 17F

04/17 07:08, , 18F
樓上這個我也有想過XD 只是不會寫= =
04/17 07:08, 18F

04/17 19:18, , 19F
proxy是個參數而已 你是用httpclient? 我下班再找找sample
04/17 19:18, 19F

04/17 23:43, , 20F
這不是用httpclient 話說之前你教我用的httpclient我也
04/17 23:43, 20F

04/17 23:46, , 21F
還沒弄懂 囧z
04/17 23:46, 21F

04/19 01:13, , 22F
寫封信 跟網站要資料.......比較快XD
04/19 01:13, 22F

04/19 03:16, , 23F
試過了XD
04/19 03:16, 23F
文章代碼(AID): #181NGdZ- (java)
文章代碼(AID): #181NGdZ- (java)