Re: [問題] html parser功能一問
※ 引述《conan99 (Edison)》之銘言:
: 想請教JAVA前輩
: 最近我要寫一個程式上網抓網頁的特定部份的資料
: 比如標籤:
: <div id="contentBlock">
: <div id="articleBlock">
: 內的連結或顯示文字
: HTML PARSER能幫我方便地找到該特定資料嗎?
: 還有,HTML檔需要先抓下來嗎?
: 還是可以線上讀取,只抓特定資料
: 謝謝
: ==================================================
就你的需求, 我覺得htmlunit就滿適合你的, 又簡單易用
官網: http://htmlunit.sourceforge.net/gettingStarted.html
缺點嘛...就是你爬網頁時忘記把js和css engine關掉的話會很慢很慢
附上你可能需要知道的範例
@Test
public void getElements() throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page =
webClient.getPage("http://htmlunit.sourceforge.net");
final HtmlDivision div = page.getHtmlElementById("some_div_id");
final HtmlAnchor anchor = page.getAnchorByName("anchor_name");
}
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 219.70.34.51
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 4 之 5 篇):