Re: [問題] HTML PARSER出包了,還是我使用方法錯了?

看板java作者 (22)時間13年前 (2011/06/12 00:55), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串2/3 (看更多)
※ 引述《mahoihei (Alvar)》之銘言: 先給上我要解析的網站 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 116.49.240.161

06/11 21:29,
順便問一下,XML的PARSER可以用來讀HTML嗎
06/11 21:29

06/11 22:43,
解析HTML請先處理容錯問題,不是每個網站的html source都
06/11 22:43

06/11 22:44,
是符合結構的,可以參考htmlcleaner
06/11 22:44

06/11 23:22,
"合符結構"是什麼意思???
06/11 23:22
有起始tag 就要有結束tag 不然就是單一的<XXX/> tag 總之就是寫網頁的人tag亂寫 你要的話就抓li自己再過濾 寫htmlparser 的人怎麼可能會知道 你要去處理一個錯的網頁 就算你用swing的那個html parser 也是要自己處理錯的網頁tag -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.230.71.169 ※ 編輯: cklonger 來自: 61.230.71.169 (06/12 00:56)

06/12 09:35, , 1F
感謝,大約明白了,我HTMLCLENNER抓來用看看
06/12 09:35, 1F
文章代碼(AID): #1DyvuGjD (java)
文章代碼(AID): #1DyvuGjD (java)