[問題] HTML parser的問題
大家好
我現在想寫一個可以簡化網頁的程式
所以需要分析所有網頁的內文TAG
可是每個網頁的HTML TAG格式都不一樣
ex:在PIXNET和無名小站的主要內文TAG分別是<div class="articla">及
<div class="innertext">
想請問各位大大網頁的HTML TAG是否有共通點讓我擷取內文
或是我的解決方法是不是往錯誤的方向去想?
麻煩知道或是有研究過的人給點提示或是解決方向
感激不盡!!!!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.39.205
推
12/13 17:27, , 1F
12/13 17:27, 1F
推
12/13 17:44, , 2F
12/13 17:44, 2F
→
12/13 18:16, , 3F
12/13 18:16, 3F
→
12/14 01:07, , 4F
12/14 01:07, 4F
→
12/14 01:07, , 5F
12/14 01:07, 5F
→
12/14 01:08, , 6F
12/14 01:08, 6F
→
12/14 01:08, , 7F
12/14 01:08, 7F
→
12/14 01:09, , 8F
12/14 01:09, 8F
→
12/14 09:00, , 9F
12/14 09:00, 9F