[問題] HTML parser的問題

看板Web_Design作者 (想飛的小孩)時間13年前 (2012/12/13 15:51), 編輯推噓2(207)
留言9則, 5人參與, 最新討論串1/1
大家好 我現在想寫一個可以簡化網頁的程式 所以需要分析所有網頁的內文TAG 可是每個網頁的HTML TAG格式都不一樣 ex:在PIXNET和無名小站的主要內文TAG分別是<div class="articla">及 <div class="innertext"> 想請問各位大大網頁的HTML TAG是否有共通點讓我擷取內文 或是我的解決方法是不是往錯誤的方向去想? 麻煩知道或是有研究過的人給點提示或是解決方向 感激不盡!!!!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.39.205

12/13 17:27, , 1F
沒有
12/13 17:27, 1F

12/13 17:44, , 2F
這是很複雜的問題..... google專門在搞這個.....
12/13 17:44, 2F

12/13 18:16, , 3F
天啊悲劇Q__Q 還是謝謝你們的回答!!!
12/13 18:16, 3F

12/14 01:07, , 4F
簡單一點就是把大部分的 class 命名可能都算進去
12/14 01:07, 4F

12/14 01:07, , 5F
或是偵測有連續的 p tag
12/14 01:07, 5F

12/14 01:08, , 6F
抑或是 innertext 很長的 p tag
12/14 01:08, 6F

12/14 01:08, , 7F
如果遇到很標準的網頁,那就爬 article tag
12/14 01:08, 7F

12/14 01:09, , 8F
以上
12/14 01:09, 8F

12/14 09:00, , 9F
所以才會制定 html5 <article> 這種東西
12/14 09:00, 9F
文章代碼(AID): #1GoOa4u7 (Web_Design)