討論串(共4篇) - [工具] HtmlParser 的一些白痴心得 - 看板java

看板 [ java ]

討論串[工具] HtmlParser 的一些白痴心得

共 4 篇文章

排序：最新先 | 最舊先 | 留言數 | 推文總分

內容預覽：開啟 | 關閉 | 只限未讀

首頁

尾頁

Re: [工具] HtmlParser 的一些白痴心得

推噓0(0推 )留言0則，0人參與作者qrtt1 (愚人)時間18年前 (2007/08/11 22:51)資訊

內容預覽:

要設一下 user-agent. 你可以在這挑一個你想用的. http://en.wikipedia.org/wiki/User_agent. import java.io.BufferedInputStream;. import java.io.File;. import java.io.File

(還有946個字)

Re: [工具] HtmlParser 的一些白痴心得

推噓0(0推 )留言0則，0人參與作者PsMonkey (痞子軍團團長)時間18年前 (2007/08/06 18:24)資訊

內容預覽:

我覺得用. ObjectFindingVisitor visitor = new ObjectFindingVisitor(TitleTag.class);. parser.visitAllNodesWith(visitor);. 看起來會比你的簡單而且好讀的多. 基本上，他的 Site Captu

(還有610個字)

Re: [工具] HtmlParser 的一些白痴心得

推噓0(0推 )留言0則，0人參與作者archerlin時間18年前 (2007/08/06 15:25)資訊

內容預覽:

純借標題問一下[前恕刪...]. 之前我也有使用過htmlparser的經驗. 但我覺得網頁的編碼始終是個大問題耶. 因為世界上的網頁千奇百怪. 不按照牌理出牌(不按規範編寫)的html實在不勝枚舉. 不成雙成對的tag，沒有任何META宣告的網頁. 造成抓取上的判讀和字型解碼相對困難許多. 我的應

(還有2326個字)

[工具] HtmlParser 的一些白痴心得

推噓0(0推 )留言0則，0人參與作者PsMonkey (痞子軍團團長)時間18年前 (2007/08/06 13:05)資訊

內容預覽:

http://htmlparser.sourceforge.net. 最近一直在作處理網頁的東西. 抓遠端的網頁，原本是用 HttpURLConnection.getInputStream(). BufferedReader br = new BufferedReader(. new InputSt

(還有1577個字)

首頁

尾頁