作者查詢 / NoneNaMey
作者 NoneNaMey 在 PTT [ Python ] 看板的留言(推文), 共21則
限定看板:Python
看板排序:
首頁
上一頁
1
下一頁
尾頁
1F推: 是抓甚麼方便私我看看嗎XD Selenium抓很慢03/29 19:27
2F→: 就算是用headless也會吃很多資源03/29 19:27
10F→: 抱歉,我是用etree沒錯。因為想學scrapy07/08 12:45
11F→: 發現scrapy都是用xpath的語法,之前用bs4都是用find07/08 12:47
12F→: 這個問題就是我想抓 索引、發文時間以及內文07/08 12:48
13F→: http://imgur.com/nDR3sDK07/08 13:03
14F→: 以這篇文為例子,總共只有15樓,我抓這行內碼07/08 13:06
15F→: 出來的結果卻變成這樣 http://imgur.com/xPr8FMt07/08 13:08
16F→: #抱歉 上面少給一張 http://imgur.com/Vlt2oTP07/08 13:10
37F→: 感謝大大細心的講解~ 先把那個網站存到最愛XD07/09 12:25
38F→: 等等來研究看看07/09 12:25
40F→: 嗯啊,而且速度上真的比bs4快很多07/09 14:19
52F→: 感謝alvinlin大的講解,我用你的方法是OK的。07/09 15:46
53F→: 結構上我也有發現不一樣,因為發文者換行會多個<div>07/09 15:47
55F→: 導致他list會因此分段,解決辦法就是用你用到的07/09 15:48
56F→: following-sibling 不過我還要了解一下XD07/09 15:49
57F→: 還有太多我不懂的用法了QQ 只能慢慢學了07/09 15:50
54F→: 我是卡在我抓c-article那行內碼時會自動抓子結點分段,07/09 15:48
58F→: 會想用xpath是因為找工作如果會xpath比較不會被嫌(?07/09 15:52
59F→: 我過去是用bs4+lxml解析器,不過速度真的慢xpath語法的07/09 15:56
60F→: 很多07/09 15:56
首頁
上一頁
1
下一頁
尾頁