作者查詢 / NoneNaMey

總覽項目：發文 | 留言 | 暱稱

作者 NoneNaMey 在 PTT [ Python ] 看板的留言(推文), 共23則

限定看板：Python

看板排序：

首頁

尾頁

[ Python ]2 留言, 推噓總分: +1

作者: B01201026 - 發表於 2021/03/20 22:39(5年前)

1^F推NoneNaMey: 是抓甚麼方便私我看看嗎XD Selenium抓很慢03/29 19:27

2^F→NoneNaMey: 就算是用headless也會吃很多資源03/29 19:27

[ Python ]6 留言, 推噓總分: +2

作者: CCT63 - 發表於 2020/12/24 17:15(5年前)

5^F推NoneNaMey: 給個小建議加一下header01/24 12:51

6^F→NoneNaMey: 你就會看到了01/24 12:51

[ Python ]61 留言, 推噓總分: +2

作者: NoneNaMey - 發表於 2020/07/07 13:42(5年前)

10^F→NoneNaMey: 抱歉，我是用etree沒錯。因為想學scrapy07/08 12:45

11^F→NoneNaMey: 發現scrapy都是用xpath的語法，之前用bs4都是用find07/08 12:47

12^F→NoneNaMey: 這個問題就是我想抓索引、發文時間以及內文07/08 12:48

13^F→NoneNaMey: http://imgur.com/nDR3sDK07/08 13:03

14^F→NoneNaMey: 以這篇文為例子，總共只有15樓，我抓這行內碼07/08 13:06

15^F→NoneNaMey: 出來的結果卻變成這樣 http://imgur.com/xPr8FMt07/08 13:08

16^F→NoneNaMey: #抱歉上面少給一張 http://imgur.com/Vlt2oTP07/08 13:10

37^F→NoneNaMey: 感謝大大細心的講解~ 先把那個網站存到最愛XD07/09 12:25

38^F→NoneNaMey: 等等來研究看看07/09 12:25

40^F→NoneNaMey: 嗯啊，而且速度上真的比bs4快很多07/09 14:19

52^F→NoneNaMey: 感謝alvinlin大的講解，我用你的方法是OK的。07/09 15:46

53^F→NoneNaMey: 結構上我也有發現不一樣，因為發文者換行會多個<div>07/09 15:47

55^F→NoneNaMey: 導致他list會因此分段，解決辦法就是用你用到的07/09 15:48

56^F→NoneNaMey: following-sibling 不過我還要了解一下XD07/09 15:49

57^F→NoneNaMey: 還有太多我不懂的用法了QQ 只能慢慢學了07/09 15:50

54^F→NoneNaMey: 我是卡在我抓c-article那行內碼時會自動抓子結點分段，07/09 15:48

58^F→NoneNaMey: 會想用xpath是因為找工作如果會xpath比較不會被嫌(?07/09 15:52

59^F→NoneNaMey: 我過去是用bs4+lxml解析器，不過速度真的慢xpath語法的07/09 15:56

60^F→NoneNaMey: 很多07/09 15:56

首頁

尾頁