[問題] 如何用re抓網頁原始檔的資料
下面這些是網站部分的原始瑪
<hr>
</pre><b>5 definitions found
</b><pre>
</pre><b>From <a
href="" rel="nofollow">http://www.aa.com"> title </a>:
</b><pre>
我是要擷取的data
</pre><b>From <a
href="" rel="nofollow">http://www.aa.com"> title2 </a>:
</b><pre>
我覺得可能是要用regular expression裡面的function
把他擷取出來
但我只有用到
re.split('\s(.*)\s<pre>', 上面那些str)
這東西出來會是好幾段 而且有我不想要的資訊
請問各位大大 有沒有更好的擷取的方法 ?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.160.111.225
→
12/02 01:10, , 1F
12/02 01:10, 1F
→
12/02 01:52, , 2F
12/02 01:52, 2F
→
12/02 02:27, , 3F
12/02 02:27, 3F
推
12/02 07:24, , 4F
12/02 07:24, 4F
推
12/02 09:29, , 5F
12/02 09:29, 5F
→
12/02 09:29, , 6F
12/02 09:29, 6F
→
12/03 00:06, , 7F
12/03 00:06, 7F
推
12/04 01:37, , 8F
12/04 01:37, 8F