[洽特] 技術交流 爬蟲備份eh tags
如題
現在大家都在忙著備份
但感覺大家都忘了備份tags
想自己寫爬蟲來爬eh的tags
無奈學藝不精,只能寫出狗屎爛扣QQ
先把完成的部份po出來八
拋磚引玉
希望有強者看不下去,全部重寫:P
分為前端和後端
前端:
使用油猴腳本來爬,因為我不會處理cookie
檢視模式用 Extended 因為這樣好處理
用post把資料送到本機python後端 因為我不會用javascript寫檔案
大約5秒爬一次資料(每次一頁),因為server會檔爬蟲,然後我不會處理
https://ideone.com/jpWdeS
後端:
使用python2.7
輸出為文字檔
會在每頁最後一筆資料後面留下",," 待後續處理
不會結束,多按幾次ctrl + c
https://ideone.com/ECX7Bo
輸出結果:
[Pixiv] カオミン [1236873]
female:pantyhose
artist:kaoming
(神戸かわさき造船これくしょん6) [ROCK`inChair (ジンナイ)] 艶・間宮 (艦隊これく
しょん -艦これ-)
parody:kantai collection
character:mamiya
female:big ass
female:big breasts
female:blowjob
female:bondage
female:sex toys
female:shibari
group:rockinchair
artist:jinnai
[Pixiv] シノノメ・ニャケ太 (28783904)
(C94) [パンとケーキ (よろず)] むれパラ☆3足目っ!おウチでおタイツこれくしょん (
艦隊これくしょん -艦これ-) [中国翻訳]
language:chinese
language:translated
parody:kantai collection
female:pantyhose
group:bread and cake
artist:umakuchi syouyu
:goudoushi
格式:
標題
tags(":"開頭的是misc)
下一個標題
p.s. tags可以沒有
目前問題:
ex掛了,eh要有銅星才能完整的爬下來
爬的太慢
每頁最後一個標籤會剩下",,"
會有新本上傳,因為是以頁數定位的,所以可能會有重複or漏掉
希望能處理成json格式
狗屎爛扣
安裝&使用方式:
前端:
油猴打開
新建腳本
貼上 https://ideone.com/jpWdeS
ex 設定成這樣 https://i.imgur.com/or7QJkh.jpg
min = 開始頁數
max = 結束頁數
port = 8000 (其他數字也行,不過要和後端一樣)
後端:
編輯器打開
貼上 https://ideone.com/ECX7Bo
另存成xxx.py
安裝python2.7
python2.7 xxx.py
port = 8000 (其他數字也行,不過要和前端一樣)
file name = name (會存成name.txt)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.231.121.164 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AC_In/M.1564170782.A.E21.html
※ 編輯: wei115 (125.231.121.164 臺灣), 07/27/2019 03:55:03
※ 編輯: wei115 (125.231.121.164 臺灣), 07/27/2019 05:18:41
→
07/27 05:31,
4年前
, 1F
07/27 05:31, 1F
→
07/27 05:31,
4年前
, 2F
07/27 05:31, 2F
推
07/27 08:51,
4年前
, 3F
07/27 08:51, 3F
推
07/27 09:17,
4年前
, 4F
07/27 09:17, 4F
推
07/27 09:19,
4年前
, 5F
07/27 09:19, 5F
推
07/27 10:44,
4年前
, 6F
07/27 10:44, 6F
→
07/27 11:12,
4年前
, 7F
07/27 11:12, 7F