Re: [工具] HtmlParser 的一些白痴心得

看板java作者PsMonkey (痞子軍團團長)時間18年前 (2007/08/06 18:24)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串3/4 (看更多)

※ 引述《archerlin ()》之銘言： : 之前我也有使用過htmlparser的經驗 : 但我覺得網頁的編碼始終是個大問題耶 : 因為世界上的網頁千奇百怪 : 不按照牌理出牌(不按規範編寫)的html實在不勝枚舉 : 不成雙成對的tag，沒有任何META宣告的網頁 : 造成抓取上的判讀和字型解碼相對困難許多 : 我的應用比較簡單，只是想要抓網頁的標題存成字串 : (就是每個網頁在瀏覽器最上方的title標題那行字) : 運用他的 TagNameFilter(tagName) 來達到目的，例如： : String tittleName = parseTag(url, "title"); 我覺得用 ObjectFindingVisitor visitor = new ObjectFindingVisitor(TitleTag.class); parser.visitAllNodesWith(visitor); 看起來會比你的簡單而且好讀的多 : 但我第一次抓取時不管怎麼怎麼寫都會跳出 ParserException : 也抓不到我想要的標題字串，後來發現原來是網頁編碼上的問題 : 經由不斷地反覆的測試和參考了官方網站的FAQ之後 : 改寫成下面這樣： : public static String parseTag(String url, String tagName) { : String ret = "網頁沒有預設標題"; : try { : Parser parser = new Parser(url); : try { : // first todo parser.parse(...); : // maybe throws an EncodingChangeException... : ret = parser.parse(new TagNameFilter(tagName)) : .asString(); : } catch (EncodingChangeException ece) { : try { : // reset the parser : parser.reset(); : // try again with the encoding now in force : // second parser.parse (...); : ret = parser.parse(new TagNameFilter(tagName)) : .asString(); : } catch (ParserException pe) { : pe.printStackTrace(); : } : } 基本上，他的 Site Capturer 也是這樣子搞所以，不要太難過... [拍拍] : 如上所示，包兩層的try...catch... : 透過兩次的second parser才能真正得到我想要的字串回傳 : 傳回的字串也能有"大約90%"的成功機率不會是亂碼... : 為啥還是有10%的失敗率呢？後來我分析原因 : 發現失敗的網站大多沒有寫這行(或有寫但編碼寫錯了) : <META http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" /> : 估計他抓不到 charset 這個屬性所以就無法判讀出該網頁到底是啥編碼了 : 導致我要手動的再去做轉碼的動作 : 例如在 : String tittleName = parseTag(url, "title"); : 之後，在META無指定charset的中文網頁需多做這行 : tittleName = new String(tittleName.getBytes("ISO-8859-1"),"BIG5"); : 在META無指定charset的日文網頁需多執行這行...依此類推 : tittleName = new String(tittleName.getBytes("ISO-8859-1"),"Shift-JIS"); : 不知道版上的高手有無啥解決方案，能夠準確的判定該網頁的編碼阿？ : 至於一些框架頁面，多重轉址頁面，一些稀奇古怪的網頁，抓不到就算了 XD 精準... 是不太可能的就像這個網頁，只能說... 高義! 你 [嗶—] http://fanqiang.chinaunix.net/a4/b5/20011230/08300025_b.html 不過，你的解法實在不怎麼妙... 畢竟，也有中文網頁是 UTF-8 [指] 而且... 以我知道的，連一個 url 可以得知編碼的地方有幾個 →HttpConnection.getContentEncoding() →HttpConnection.getContentType() →HTML 當中的 meta tag，找尋 content-type 的 value 第一個，以我目前遇到的... 嗯... 基本上都是 null 所以，基本上好像可以忽略 Orz 後面兩個，是取 charset= 後頭的字串。如果上面三個都沒辦法給編碼的資訊，我預設的編碼是 UTF-8 扣掉 IE 跟 firefox 開起來也是亂碼的網頁（向上面那個高義網頁... Orz）中文（繁簡）編碼正確率大概 90% （咦....） -- 侃侃長論鮮窒礙首頁：http://www.psmonkey.idv.tw 眾目睽睽無心顫 Blog：http://ps-think.blogspot.com 煢居少聊常人事殺頭容易告白難歡迎參觀 Java 版（@ptt.cc）精華區 \囧/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.228.193.251

‣ 返回看板[ java ] 程設

‣ 更多 PsMonkey 的文章

文章代碼(AID): #16jlR1NM (java)