[問題] 如何用re抓網頁原始檔的資料

看板Python作者qazwsxedccs (嘖嘖)時間14年前 (2011/12/02 00:57)推噓3(3推 0噓 5→)

留言8則, 6人參與討論串1/1

下面這些是網站部分的原始瑪 <hr> </pre>5 definitions found <pre> </pre>From <a href="" rel="nofollow">http://www.aa.com"> title </a>: <pre> 我是要擷取的data </pre>From <a href="" rel="nofollow">http://www.aa.com"> title2 </a>: <pre> 我覺得可能是要用regular expression裡面的function 把他擷取出來但我只有用到 re.split('\s(.*)\s<pre>', 上面那些str) 這東西出來會是好幾段而且有我不想要的資訊請問各位大大有沒有更好的擷取的方法 ? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.160.111.225

→

suzuke

12/02 01:10, , 1^F

12/02 01:10, 1^F

→

qazwsxedccs

12/02 01:52, , 2^F

12/02 01:52, 2^F

→

suzuke

12/02 02:27, , 3^F

12/02 02:27, 3^F