Re: [工具] HtmlParser 的一些白痴心得
※ 引述《archerlin ()》之銘言:
: 之前我也有使用過htmlparser的經驗
: 但我覺得網頁的編碼始終是個大問題耶
: 因為世界上的網頁千奇百怪
: 不按照牌理出牌(不按規範編寫)的html實在不勝枚舉
: 不成雙成對的tag,沒有任何META宣告的網頁
: 造成抓取上的判讀和字型解碼相對困難許多
: 我的應用比較簡單,只是想要抓網頁的標題存成字串
: (就是每個網頁在瀏覽器最上方的title標題那行字)
: 運用他的 TagNameFilter(tagName) 來達到目的,例如:
: String tittleName = parseTag(url, "title");
我覺得用
ObjectFindingVisitor visitor = new ObjectFindingVisitor(TitleTag.class);
parser.visitAllNodesWith(visitor);
看起來會比你的簡單而且好讀的多
: 但我第一次抓取時不管怎麼怎麼寫都會跳出 ParserException
: 也抓不到我想要的標題字串,後來發現原來是網頁編碼上的問題
: 經由不斷地反覆的測試和參考了官方網站的FAQ之後
: 改寫成下面這樣:
: public static String parseTag(String url, String tagName) {
: String ret = "網頁沒有預設標題";
: try {
: Parser parser = new Parser(url);
: try {
: // first todo parser.parse(...);
: // maybe throws an EncodingChangeException...
: ret = parser.parse(new TagNameFilter(tagName))
: .asString();
: } catch (EncodingChangeException ece) {
: try {
: // reset the parser
: parser.reset();
: // try again with the encoding now in force
: // second parser.parse (...);
: ret = parser.parse(new TagNameFilter(tagName))
: .asString();
: } catch (ParserException pe) {
: pe.printStackTrace();
: }
: }
基本上,他的 Site Capturer 也是這樣子搞
所以,不要太難過... [拍拍]
: 如上所示,包兩層的try...catch...
: 透過兩次的second parser才能真正得到我想要的字串回傳
: 傳回的字串也能有"大約90%"的成功機率不會是亂碼...
: 為啥還是有10%的失敗率呢?後來我分析原因
: 發現失敗的網站大多沒有寫這行(或有寫但編碼寫錯了)
: <META http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />
: 估計他抓不到 charset 這個屬性所以就無法判讀出該網頁到底是啥編碼了
: 導致我要手動的再去做轉碼的動作
: 例如在
: String tittleName = parseTag(url, "title");
: 之後,在META無指定charset的中文網頁需多做這行
: tittleName = new String(tittleName.getBytes("ISO-8859-1"),"BIG5");
: 在META無指定charset的日文網頁需多執行這行...依此類推
: tittleName = new String(tittleName.getBytes("ISO-8859-1"),"Shift-JIS");
: 不知道版上的高手有無啥解決方案,能夠準確的判定該網頁的編碼阿?
: 至於一些框架頁面,多重轉址頁面,一些稀奇古怪的網頁,抓不到就算了 XD
精準... 是不太可能的
就像這個網頁,只能說... 高義! 你 [嗶—]
http://fanqiang.chinaunix.net/a4/b5/20011230/08300025_b.html
不過,你的解法實在不怎麼妙...
畢竟,也有中文網頁是 UTF-8 [指]
而且...
以我知道的,連一個 url 可以得知編碼的地方有幾個
→HttpConnection.getContentEncoding()
→HttpConnection.getContentType()
→HTML 當中的 meta tag,找尋 content-type 的 value
第一個,以我目前遇到的... 嗯... 基本上都是 null
所以,基本上好像可以忽略 Orz
後面兩個,是取 charset= 後頭的字串。
如果上面三個都沒辦法給編碼的資訊,我預設的編碼是 UTF-8
扣掉 IE 跟 firefox 開起來也是亂碼的網頁
(向上面那個高義網頁... Orz)
中文(繁簡)編碼正確率大概 90% (咦....)
--
侃侃長論鮮窒礙 首頁:http://www.psmonkey.idv.tw
眾目睽睽無心顫 Blog:http://ps-think.blogspot.com
煢居少聊常人事
殺頭容易告白難 歡迎參觀 Java 版(@ptt.cc)精華區 \囧/
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.228.193.251
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 4 篇):