作者查詢 / alvinlin
作者 alvinlin 在 PTT [ Python ] 看板的留言(推文), 共809則
限定看板:Python
看板排序:
全部WomenTalk1333Python809Gossiping796Boy-Girl737marriage583sex454Tech_Job335Beauty205HatePolitics145Taoyuan140movie118Stock88AllTogether52KoreaStar33PC_Shopping32Soft_Job25Salary24Wanted21Test18Programming14cookclub10creditcard10e-shopping9Insurance9Lifeismoney9GetMarry8lostsleep8Ajax7C_Chat7CFP7HomeTeach7MobileComm7PingTung6StupidClown6bicycle-tour5TrinityBlood5Divorce4FamilyCircle4L_TalkandCha4Vietnam4Baseball3CareerPlan3dog3FJU3joke3PlayStation3SkiSnowboard3Teacher3Chiayi2bicycle1car1ChungLi1CodeJob1feminine_sex1Finance1gay1HardwareSale1home-sale1Korea_Travel1LGBT_SEX1LoL1MIT1R_Language1specialman1TaichungBun1<< 收起看板(65)
1F→: 照抄就好了07/14 19:54
2F→: https://i.imgur.com/o7fGXnJ.jpg07/14 19:54
1F→: 試看看https://i.imgur.com/XCFCE0H.jpg07/14 19:01
1F→: 你第二張圖下面那個URLconf還沒加07/12 10:46
2F→: 執行python manage.py runserver 時07/12 10:49
4F→: 要在命令列執行那行python manage.py runserver不能只跑07/13 18:47
2F→: 我感覺你用的google和我用的google不是同一個07/07 11:15
7F→: https://i.imgur.com/Rf0ZIa4.jpg07/07 16:32
8F→: 其實是很簡單的需求。應該很容易找到資料的07/07 16:33
10F→: 小玩笑別介意。如果有冒犯的地方我願意道歉07/09 18:35
1F→: 我覺得大家可能仰賴網路上的資訊了07/07 23:49
2F→: 從你的問題來看,我都看不出你現在打算用什麼07/07 23:50
3F→: BeautifulSoup裡也有xpath的,但你的xpath是用什麼模組07/07 23:52
4F→: ?07/07 23:52
5F→: Parsel也有xpath也有css。先把你用了什麼,程式寫了什麼07/07 23:53
6F→: 寫清楚吧07/07 23:53
7F→: 我估了一下,你可能是用lxml 的 etree07/07 23:55
8F→: 但我懶得猜了07/07 23:56
18F→: 好吧。我大概懂了。但其實沒錯07/08 20:12
19F→: 它中間變空白是因為它有圖及其他內容你沒處理啊07/08 20:15
20F→: https://i.imgur.com/eyVS1QS.jpg07/08 20:18
21F→: 參考這個吧07/08 20:22
22F→: https://devhints.io/xpath07/08 20:22
23F→: 這要再篩選啦,不是用一個篩選器就搞定的。你要再迴圈裡07/08 20:36
24F→: 去判斷07/08 20:36
25F→: 要再*在迴圈裡去判斷其實狀況07/08 20:38
26F→: 其*他狀況07/08 20:39
27F→: 另外,我建議你用Parsel套件。雖然它們可能同樣源自於lx07/08 20:56
28F→: ml套件。但scrapy官方說也可以用bs4只是「它比較慢」(07/08 20:56
29F→: 官方說的)。所以如果習慣bs4倒也不一定非用別的07/08 20:56
30F→: 看起來有三種。chain在一起就行了07/09 00:45
31F→: https://i.imgur.com/3c7b4dQ.jpg07/09 00:45
32F→: https://i.imgur.com/wGfreYa.jpg07/09 00:47
33F→: 看起來有三種。chain在一起就行了07/09 00:47
34F→: 看起來etree和parsel結果有點不同。07/09 01:26
35F→: 你那個應該是把空格strip掉就行了吧07/09 01:26
36F→: https://i.imgur.com/CYs1hUf.jpg07/09 01:26
41F→: 我的是正常的。你用我的code吧。因為parsle是scrapy用的07/09 15:26
42F→: ,可以直接對應scrapy的selector小改即可。而且我覺得如07/09 15:26
43F→: 果你去看你那個網站回文的html結構,其實它真的是有三種07/09 15:26
44F→: 以上不同的結構。07/09 15:26
45F→: https://i.imgur.com/kxEjOJA.jpg07/09 15:26
46F→: 它沒有多很多行啦。就是中間1235樓的內文是空的。你拿我07/09 15:31
47F→: 程式去看每個內文就知怎麼回事了。07/09 15:31
48F→: Btw,bs4也可以用lxml07/09 15:31
49F→: 你的code可能看不出來哪一樓是因為你把它們全混在一起了07/09 15:34
50F→: 。你參考我的再去看文章的HTML就應該懂了。這裡實在解釋07/09 15:34
51F→: 不清楚。07/09 15:34
61F推: Ok.讚喔^^07/09 16:21
2F→: 應該是這樣07/07 21:09
3F→: https://i.imgur.com/mWERCht.jpg07/07 21:09
5F→: ^^07/07 23:12
3F→: 嗯。通常是去看js完後它把資料丟哪去了。然後去抓那個結06/30 01:36
4F→: 果06/30 01:36
5F→: 建議可以po個網址來看看省時間06/30 01:37
7F→: bs4有css也有xpath.如果用parsel(scrapy)只有xpath.所以07/01 13:26
8F推: bs4有個參數有html.parser/lxml/html5lib但只是速度不同07/01 13:29
9F→: 或你也可以用html.parser模組的HTMLParser類自己刻一個07/01 13:32
10F→: 或用html2text模組不parse自己去找內容07/01 13:35
11F→: 所以bs4和xpath不是對比的選擇.而是xpath是bs4的選項之107/01 13:40
12F→: bs4不能解析js是因為js需要瀏覽器才能跑(除非是node.js)07/01 13:42
15F→: ^^07/06 23:24
16F→: 如果還是說明不清楚可以說07/06 23:25
17F→: 通常是css和xpath混用吧看哪一個可以達到目標07/06 23:29
4F推: 很簡潔但我看不懂。不過謝謝分享。給推07/06 23:20
1F→: https://tinyurl.com/yc45jtah07/05 21:07
2F→: 可以到秒07/05 21:07
3F→: https://i.imgur.com/gZWvMAb.jpg07/05 21:07
4F→: 忘了把新digest的dump。你再改改07/05 21:14
5F→: https://i.imgur.com/BnCk1rL.jpg07/05 21:18
7F→: ^^07/06 15:30
2F→: 土法煉鋼最簡單啦?07/04 19:25
3F→: https://i.imgur.com/GuEW1dk.jpg07/04 19:25
6F→: 看起來很酷但這樣要跑兩次list迴圈,A一次B一次07/06 09:15