Re: [工具] HtmlParser 的一些白痴心得

看板java作者 (痞子軍團團長)時間18年前 (2007/08/06 18:24), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串3/4 (看更多)
※ 引述《archerlin ()》之銘言: : 之前我也有使用過htmlparser的經驗 : 但我覺得網頁的編碼始終是個大問題耶 : 因為世界上的網頁千奇百怪 : 不按照牌理出牌(不按規範編寫)的html實在不勝枚舉 : 不成雙成對的tag,沒有任何META宣告的網頁 : 造成抓取上的判讀和字型解碼相對困難許多 : 我的應用比較簡單,只是想要抓網頁的標題存成字串 : (就是每個網頁在瀏覽器最上方的title標題那行字) : 運用他的 TagNameFilter(tagName) 來達到目的,例如: : String tittleName = parseTag(url, "title"); 我覺得用 ObjectFindingVisitor visitor = new ObjectFindingVisitor(TitleTag.class); parser.visitAllNodesWith(visitor); 看起來會比你的簡單而且好讀的多 : 但我第一次抓取時不管怎麼怎麼寫都會跳出 ParserException : 也抓不到我想要的標題字串,後來發現原來是網頁編碼上的問題 : 經由不斷地反覆的測試和參考了官方網站的FAQ之後 : 改寫成下面這樣: : public static String parseTag(String url, String tagName) { : String ret = "網頁沒有預設標題"; : try { : Parser parser = new Parser(url); : try { : // first todo parser.parse(...); : // maybe throws an EncodingChangeException... : ret = parser.parse(new TagNameFilter(tagName)) : .asString(); : } catch (EncodingChangeException ece) { : try { : // reset the parser : parser.reset(); : // try again with the encoding now in force : // second parser.parse (...); : ret = parser.parse(new TagNameFilter(tagName)) : .asString(); : } catch (ParserException pe) { : pe.printStackTrace(); : } : } 基本上,他的 Site Capturer 也是這樣子搞 所以,不要太難過... [拍拍] : 如上所示,包兩層的try...catch... : 透過兩次的second parser才能真正得到我想要的字串回傳 : 傳回的字串也能有"大約90%"的成功機率不會是亂碼... : 為啥還是有10%的失敗率呢?後來我分析原因 : 發現失敗的網站大多沒有寫這行(或有寫但編碼寫錯了) : <META http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" /> : 估計他抓不到 charset 這個屬性所以就無法判讀出該網頁到底是啥編碼了 : 導致我要手動的再去做轉碼的動作 : 例如在 : String tittleName = parseTag(url, "title"); : 之後,在META無指定charset的中文網頁需多做這行 : tittleName = new String(tittleName.getBytes("ISO-8859-1"),"BIG5"); : 在META無指定charset的日文網頁需多執行這行...依此類推 : tittleName = new String(tittleName.getBytes("ISO-8859-1"),"Shift-JIS"); : 不知道版上的高手有無啥解決方案,能夠準確的判定該網頁的編碼阿? : 至於一些框架頁面,多重轉址頁面,一些稀奇古怪的網頁,抓不到就算了 XD 精準... 是不太可能的 就像這個網頁,只能說... 高義! 你 [嗶—] http://fanqiang.chinaunix.net/a4/b5/20011230/08300025_b.html 不過,你的解法實在不怎麼妙... 畢竟,也有中文網頁是 UTF-8 [指] 而且... 以我知道的,連一個 url 可以得知編碼的地方有幾個 →HttpConnection.getContentEncoding() →HttpConnection.getContentType() →HTML 當中的 meta tag,找尋 content-type 的 value 第一個,以我目前遇到的... 嗯... 基本上都是 null 所以,基本上好像可以忽略 Orz 後面兩個,是取 charset= 後頭的字串。 如果上面三個都沒辦法給編碼的資訊,我預設的編碼是 UTF-8 扣掉 IE 跟 firefox 開起來也是亂碼的網頁 (向上面那個高義網頁... Orz) 中文(繁簡)編碼正確率大概 90% (咦....) -- 侃侃長論鮮窒礙 首頁:http://www.psmonkey.idv.tw 眾目睽睽無心顫 Blog:http://ps-think.blogspot.com 煢居少聊常人事 殺頭容易告白難 歡迎參觀 Java 版(@ptt.cc)精華區 \囧/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.228.193.251
文章代碼(AID): #16jlR1NM (java)
文章代碼(AID): #16jlR1NM (java)