[問題] 如何用re抓網頁原始檔的資料

看板Python作者 (嘖嘖)時間12年前 (2011/12/02 00:57), 編輯推噓3(305)
留言8則, 6人參與, 最新討論串1/1
下面這些是網站部分的原始瑪 <hr> </pre><b>5 definitions found </b><pre> </pre><b>From <a href="" rel="nofollow">http://www.aa.com"> title </a>: </b><pre> 我是要擷取的data </pre><b>From <a href="" rel="nofollow">http://www.aa.com"> title2 </a>: </b><pre> 我覺得可能是要用regular expression裡面的function 把他擷取出來 但我只有用到 re.split('\s(.*)\s<pre>', 上面那些str) 這東西出來會是好幾段 而且有我不想要的資訊 請問各位大大 有沒有更好的擷取的方法 ? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.160.111.225

12/02 01:10, , 1F
BeautifulSoup
12/02 01:10, 1F

12/02 01:52, , 2F
可是BeautifulSoup好像沒有支援python 3.2 Q_Q
12/02 01:52, 2F

12/02 02:27, , 3F
好像是~
12/02 02:27, 3F

12/02 07:24, , 4F
re.search()
12/02 07:24, 4F

12/02 09:29, , 5F
pyquery
12/02 09:29, 5F

12/02 09:29, , 6F
有支援3.2 以jquery的方式擷取資料
12/02 09:29, 6F

12/03 00:06, , 7F
re.findall()
12/03 00:06, 7F

12/04 01:37, , 8F
lxml+xpath
12/04 01:37, 8F
文章代碼(AID): #1Erx8KbV (Python)