[問題] HTML PARSER出包了,還是我使用方法錯了?

看板java作者 (Alvar)時間13年前 (2011/06/11 21:28), 編輯推噓0(004)
留言4則, 2人參與, 最新討論串1/3 (看更多)
先給上我要解析的網站 http://goo.gl/FXmDR 用的是html parser 1.6版本 我的想法是用TagNameFilter,過濾出<ul>TAG的nodelist ,再找出nodelist的第一個NODE <ul class="archiver_forumlist"> 就可以提出整個列表了 可是出來的結果是, 確實抓出<ul class="archiver_forumlist"> </ul> 的內容,可是我抓出來的列表到 <li><a href="archiver/?fid-206.html">吹水廣場</a></li> </ul></li> </ul></li> 就停了, 我看看抓出來的HTML碼比對網站的發現 <li><a href="archiver/?fid-206.html">吹水廣場</a></li> </ul></li> </ul></li></ul> <<多了個</ul> nodelist的第一個node變成了 <ul class="archiver_forumlist"> ..略N字 <li><a href="archiver/?fid-206.html">吹水廣場</a></li> </ul></li> </ul></li></ul> 若是沒解的話,有另外一些解析HTML的API嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 116.49.240.161

06/11 21:29, , 1F
順便問一下,XML的PARSER可以用來讀HTML嗎
06/11 21:29, 1F

06/11 22:43, , 2F
解析HTML請先處理容錯問題,不是每個網站的html source都
06/11 22:43, 2F

06/11 22:44, , 3F
是符合結構的,可以參考htmlcleaner
06/11 22:44, 3F

06/11 23:22, , 4F
"合符結構"是什麼意思???
06/11 23:22, 4F
文章代碼(AID): #1Dysrp9T (java)
文章代碼(AID): #1Dysrp9T (java)