作者查詢 / NoneNaMey

總覽項目: 發文 | 留言 | 暱稱
作者 NoneNaMey 在 PTT [ Python ] 看板的留言(推文), 共21則
限定看板:Python
首頁
上一頁
1
下一頁
尾頁
[閒聊] 爬蟲背景執行就失敗
[ Python ]2 留言, 推噓總分: +1
作者: B01201026 - 發表於 2021/03/20 22:39(4年前)
1FNoneNaMey: 是抓甚麼方便私我看看嗎XD Selenium抓很慢03/29 19:27
2FNoneNaMey: 就算是用headless也會吃很多資源03/29 19:27
[問題] xpath的內容問題 求大大解答QQ
[ Python ]61 留言, 推噓總分: +2
作者: NoneNaMey - 發表於 2020/07/07 13:42(5年前)
10FNoneNaMey: 抱歉,我是用etree沒錯。因為想學scrapy07/08 12:45
11FNoneNaMey: 發現scrapy都是用xpath的語法,之前用bs4都是用find07/08 12:47
12FNoneNaMey: 這個問題就是我想抓 索引、發文時間以及內文07/08 12:48
13FNoneNaMey: http://imgur.com/nDR3sDK07/08 13:03
14FNoneNaMey: 以這篇文為例子,總共只有15樓,我抓這行內碼07/08 13:06
15FNoneNaMey: 出來的結果卻變成這樣 http://imgur.com/xPr8FMt07/08 13:08
16FNoneNaMey: #抱歉 上面少給一張 http://imgur.com/Vlt2oTP07/08 13:10
37FNoneNaMey: 感謝大大細心的講解~ 先把那個網站存到最愛XD07/09 12:25
38FNoneNaMey: 等等來研究看看07/09 12:25
40FNoneNaMey: 嗯啊,而且速度上真的比bs4快很多07/09 14:19
52FNoneNaMey: 感謝alvinlin大的講解,我用你的方法是OK的。07/09 15:46
53FNoneNaMey: 結構上我也有發現不一樣,因為發文者換行會多個<div>07/09 15:47
55FNoneNaMey: 導致他list會因此分段,解決辦法就是用你用到的07/09 15:48
56FNoneNaMey: following-sibling 不過我還要了解一下XD07/09 15:49
57FNoneNaMey: 還有太多我不懂的用法了QQ 只能慢慢學了07/09 15:50
54FNoneNaMey: 我是卡在我抓c-article那行內碼時會自動抓子結點分段,07/09 15:48
58FNoneNaMey: 會想用xpath是因為找工作如果會xpath比較不會被嫌(?07/09 15:52
59FNoneNaMey: 我過去是用bs4+lxml解析器,不過速度真的慢xpath語法的07/09 15:56
60FNoneNaMey: 很多07/09 15:56
首頁
上一頁
1
下一頁
尾頁