[問題] 該如何靠一個定位點抓取上層資料?

看板Python作者 (✩鍵✩盤✩戮✩)時間6年前 (2018/06/03 18:38), 6年前編輯推噓2(205)
留言7則, 3人參與, 6年前最新討論串1/1
各位好,做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ,我必須靠Number 來追蹤到ID,目前已經能做到追蹤到Number但ID跟Number不同行,我不懂該如何提取 能給我點提示嗎?謝謝 範例:..... str = ''' <li><a href="123.html" target=_blank class="Observe24"> 十分鐘資料</a></li> ''' 如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html 但現在如果分行了,我只能抓到 唯一識別值:十分鐘資料,我不知道應該怎麼回推 從我在原始碼找到十分鐘的資料後,往上一行獲取到 123.html 這個值 懇請指點 謝謝 -- \ 這個板需要更高竿的酸民 //﹀\\ ╰═╯ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.158.30.145 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1528022314.A.E65.html

06/03 18:56, 6年前 , 1F
是不是這個呀
06/03 18:56, 1F

06/03 18:56, 6年前 , 2F

06/03 18:56, 6年前 , 3F
soup-getting-href
06/03 18:56, 3F
謝謝,但不是撈所有的url,我想要先抓到 十分鐘資料後再抓到和它一起的123.hml

06/03 19:39, 6年前 , 4F
我看起來你的做法是把HTML code看成是純文字來處理
06/03 19:39, 4F

06/03 19:39, 6年前 , 5F
為何不先把他parse成結構化的資料?
06/03 19:39, 5F
沒錯...我是以純文字操作,我原以為能自幹功能XD...看來還是要用parse,想說或許 能節省點效能XDD 只不過剛用bs4 + lxml後 還是會有分行的狀況QQ ※ 編輯: KeyBoardKill (49.158.30.145), 06/03/2018 20:22:49

06/03 23:09, 6年前 , 6F
爬蟲還是建議用selector啦,不管是CSS或是XPATH
06/03 23:09, 6F

06/03 23:20, 6年前 , 7F
這樣遇到問題自己比較容易除錯,板友也容易幫忙
06/03 23:20, 7F
文章代碼(AID): #1R4yKgvb (Python)