[問題] 用beautifulsoup抓網頁中的表格

看板Python作者 (across)時間8年前 (2017/08/04 03:50), 8年前編輯推噓1(1014)
留言15則, 2人參與, 最新討論串1/1
要抓一個wiki page中的表格以計算 但是我只會作到抓下整個html碼 接下來就不知道怎麼作 https://en.wikipedia.org/wiki/World_Series_television_ratings 像以上這樣 請問我要怎麼樣才能夠只抓下 1984~年的收視率表格? Television ratings by year, 1984 – present python3 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 69.117.241.97 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1501789810.A.4EF.html

08/04 08:30, , 1F
bf = Beautiful(url,'html.parser')
08/04 08:30, 1F

08/04 08:30, , 2F
target = bf.findAll('table')[1]
08/04 08:30, 2F

08/04 08:33, , 3F
想做計算可以用pandas,先熟悉用bf抓contents吧
08/04 08:33, 3F
我有作到這一步 但是那個頁面有很多表格 我不太確定要怎麼限定在我要的那一個表格 然後抓下來進行計算 是否應該開網頁html碼 然後用 ("div", {class}:..........) 後半部不知應該怎麼看

08/04 11:14, , 4F
樓上的湯被偷了........
08/04 11:14, 4F

08/04 12:07, , 5F
pandas很強,但也很雞肋 遇到一些很亂的網頁時
08/04 12:07, 5F

08/04 12:07, , 6F
所要的資訊盡亂塞在表格很奇怪的地方 而且還是分開的
08/04 12:07, 6F

08/04 12:08, , 7F
我就放棄pandas,改回歸原始的美麗的湯
08/04 12:08, 7F

08/04 12:09, , 8F
不過,用美麗的湯,也是得突破千萬難關 才有辦法抵達
08/04 12:09, 8F

08/04 12:09, , 9F
就是同你說的 ("div", {class}:...
08/04 12:09, 9F

08/04 12:10, , 10F
昨天在撈統聯客運的訊息時,差點沒吐血........
08/04 12:10, 10F
所以該怎麼作呢? 用beautifulsoup的documment要怎麼找關鍵字來查出 我想要的產出的作法? 謝謝! ※ 編輯: cawaiilulu (69.117.241.97), 08/04/2017 12:33:28

08/04 13:07, , 11F
就你說的 一樣是看html找標籤
08/04 13:07, 11F

08/04 13:11, , 12F
按F12 進到開發人員模式去看
08/04 13:11, 12F

08/04 21:24, , 13F
要是只抓這種一頁的資訊,怕麻煩就用xpath或css一鍵複製
08/04 21:24, 13F

08/04 21:25, , 14F
會用到特別標注id,class這種的 通常是需要抓同個架構下
08/04 21:25, 14F

08/04 21:27, , 15F
差不多的內容,但是怕重新request的時候改變xpath的那種
08/04 21:27, 15F
文章代碼(AID): #1PWtvoJl (Python)