[問題] 爬蟲如何選取ptt內文內容

看板Python作者 (あああああ)時間7年前 (2017/01/13 22:10), 7年前編輯推噓3(302)
留言5則, 3人參與, 最新討論串1/2 (看更多)
嫩嫩爬蟲新手 請問一下各位大大 爬蟲ptt如何抓下內文,我只想要爬內文就好,不要推文..... http://i.imgur.com/BeEIMBc.jpg
(不好意思借用一下隔壁軟體板) 我用chrome檢查工具 發現內文包含在id="main-content"裡面 更下面的tag有作者、標題、推文等.... 但是似乎沒有單獨內文的tag 我用suop.select('#main-content')[0].text 但是抓下的是包含作者標題推文等一大串內容.....囧 請問要如何處理這個問題? 謝謝~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.139.169.176 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1484316608.A.D19.html ※ 編輯: ahahahahah (210.139.169.176), 01/13/2017 22:12:30

01/13 23:12, , 1F
用re自己撈?
01/13 23:12, 1F

01/13 23:14, , 2F
我看了一下 <span class="article-meta-value"> 這底下
01/13 23:14, 2F

01/13 23:14, , 3F
是作者的資訊阿
01/13 23:14, 3F

01/16 01:30, , 4F
用這行當結尾<span class="f2">※ 發信站: 批踢踢實業坊
01/16 01:30, 4F

01/20 13:33, , 5F
我個人也較喜歡用re
01/20 13:33, 5F
文章代碼(AID): #1OUD_0qP (Python)
文章代碼(AID): #1OUD_0qP (Python)