[問題] HTMLParser抓連結應用
大大好
我找到一個程式如下,可以抓取如:<a href="/intl/zh-TW/about.html"> 之內容
可是我想抓的是<a XXX> XXXX </a> 這樣子的內容
該怎麼做比較好呢? (XXXX裡也可以有其它tag)
#!/usr/bin/python
# -*- coding: utf-8 -*-
import HTMLParser
import urllib
import sys
#定義HTML解析器
class parseLinks(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
#if name == 'href':
print value
print self.get_starttag_text()
#創建HTML解析器的實例
lParser = parseLinks()
#打開HTML文件
lParser.feed(urllib.urlopen("http://google.com.tw").read())
lParser.close()
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.133.3.165
→
05/05 00:26, , 1F
05/05 00:26, 1F
→
05/05 00:27, , 2F
05/05 00:27, 2F
→
05/05 00:30, , 3F
05/05 00:30, 3F
推
05/05 01:42, , 4F
05/05 01:42, 4F
推
05/05 02:21, , 5F
05/05 02:21, 5F
推
06/15 21:11, , 6F
06/15 21:11, 6F