[工具] HtmlParser 的一些白痴心得

看板java作者PsMonkey (痞子軍團團長)時間18年前 (2007/08/06 13:05)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/4 (看更多)

http://htmlparser.sourceforge.net 最近一直在作處理網頁的東西抓遠端的網頁，原本是用 HttpURLConnection.getInputStream() BufferedReader br = new BufferedReader( new InputStreamReader(connection.getInputStream(), encoding) ); String tmp; while( (tmp=bis.readLine()) != null ){ //存檔 or 塞 StringBuffer } bis.close(); 存檔之後，在用 htmlparser 去 parser 一些想要的東西例如範例給的，抓 link（<a> 的 href, <link> 等等） //準備 Parser Page page = new Page(html, encode); Lexer lexer = new Lexer(page); Parser parser = new Parser(lexer); parser.setEncoding(encode); //開始處理 ObjectFindingVisitor visitor = new ObjectFindingVisitor(LinkTag.class); parser.visitAllNodesWith(visitor); ArrayList<String> tmp = new ArrayList(); for(int i=0; i<visitor.getCount(); i++){ if(((LinkTag)(visitor.getTags()[i])).isHTTPLink()){ tmp.add(((LinkTag)(visitor.getTags()[i])).getLink()); } } String[] result = new String[tmp.size()]; tmp.toArray(result); 在大多數情況下，日子也還過得去... [茶] 不過，有一些網頁，用 HttpURLConnection.getInputStream() 是不行的最殘忍的例子就是 google search result http://www.google.com/search?hl=zh-TW&q=htmlparser 我先用過 apache 的 HttpClient，發現他是可以的 [暈] 可是，我又不是要處理 post 的網頁，用那個太麻煩 XD 後來看到 HtmlParser 有 Site Capturer 的範例嗯... 雖然就砍站的效果而言，很糟糕不過... 抓得下來耶... \囧/ （還沒有去查原因，還請高手順帶指點 \囧/）翻了一下原始碼，他是這樣子搞的 PrintWriter out = new PrintWriter(new FileOutputStream(file)); for (NodeIterator e = parser.elements(); e.hasMoreNodes();){ out.print(e.nextNode().toHtml()); } out.close(); 嘖嘖，居然來這招... 而且還不用管編碼（目前還沒 try 出問題就是了）另外一個... 發現... 就是用 Parser.reset()，就可以重複使用同一個 parser 之前不知道，就... [毆飛] 耍白痴完畢... [逃] -- 侃侃長論鮮窒礙首頁：http://www.psmonkey.idv.tw 眾目睽睽無心顫 Blog：http://ps-think.blogspot.com 煢居少聊常人事殺頭容易告白難歡迎參觀 Java 版（@ptt.cc）精華區 \囧/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.228.193.251

‣ 返回看板[ java ] 程設

‣ 更多 PsMonkey 的文章

文章代碼(AID): #16jgmaW4 (java)