[問題] HTMLParser抓連結應用

看板Python作者 (song)時間14年前 (2010/05/04 23:03), 編輯推噓3(303)
留言6則, 5人參與, 最新討論串1/1
大大好 我找到一個程式如下,可以抓取如:<a href="/intl/zh-TW/about.html"> 之內容 可是我想抓的是<a XXX> XXXX </a> 這樣子的內容 該怎麼做比較好呢? (XXXX裡也可以有其它tag) #!/usr/bin/python # -*- coding: utf-8 -*- import HTMLParser import urllib import sys #定義HTML解析器 class parseLinks(HTMLParser.HTMLParser): def handle_starttag(self, tag, attrs): if tag == 'a': for name,value in attrs: #if name == 'href': print value print self.get_starttag_text() #創建HTML解析器的實例 lParser = parseLinks() #打開HTML文件 lParser.feed(urllib.urlopen("http://google.com.tw").read()) lParser.close() -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.133.3.165

05/05 00:26, , 1F
最近剛好在玩 我是用lxml etree.parse()建立etree 然後再
05/05 00:26, 1F

05/05 00:27, , 2F
用etree.xpath()去找你要的東東
05/05 00:27, 2F

05/05 00:30, , 3F
你可以試試BeautifulSoup
05/05 00:30, 3F

05/05 01:42, , 4F
lxml 裡面也包含beautifulsoup 的parser 兩個都不錯用
05/05 01:42, 4F

05/05 02:21, , 5F
推lxml~~
05/05 02:21, 5F

06/15 21:11, , 6F
我也是用lxml 好用
06/15 21:11, 6F
文章代碼(AID): #1Bu3T8m2 (Python)