看板 [ java ]
討論串[工具] HtmlParser 的一些白痴心得
共 4 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者qrtt1 (愚人)時間18年前 (2007/08/11 22:51), 編輯資訊
0
1
3
內容預覽:
要設一下 user-agent. 你可以在這挑一個你想用的. http://en.wikipedia.org/wiki/User_agent. import java.io.BufferedInputStream;. import java.io.File;. import java.io.File
(還有946個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者PsMonkey (痞子軍團團長)時間18年前 (2007/08/06 18:24), 編輯資訊
0
0
3
內容預覽:
我覺得用. ObjectFindingVisitor visitor = new ObjectFindingVisitor(TitleTag.class);. parser.visitAllNodesWith(visitor);. 看起來會比你的簡單而且好讀的多. 基本上,他的 Site Captu
(還有610個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者archerlin時間18年前 (2007/08/06 15:25), 編輯資訊
0
0
1
內容預覽:
純借標題問一下[前恕刪...]. 之前我也有使用過htmlparser的經驗. 但我覺得網頁的編碼始終是個大問題耶. 因為世界上的網頁千奇百怪. 不按照牌理出牌(不按規範編寫)的html實在不勝枚舉. 不成雙成對的tag,沒有任何META宣告的網頁. 造成抓取上的判讀和字型解碼相對困難許多. 我的應
(還有2326個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者PsMonkey (痞子軍團團長)時間18年前 (2007/08/06 13:05), 編輯資訊
0
0
4
內容預覽:
http://htmlparser.sourceforge.net. 最近一直在作處理網頁的東西. 抓遠端的網頁,原本是用 HttpURLConnection.getInputStream(). BufferedReader br = new BufferedReader(. new InputSt
(還有1577個字)
首頁
上一頁
1
下一頁
尾頁