[洽特] 技術交流 爬蟲備份eh tags

看板AC_In作者 (NEET)時間4年前 (2019/07/27 03:53), 4年前編輯推噓4(403)
留言7則, 5人參與, 4年前最新討論串1/1
如題 現在大家都在忙著備份 但感覺大家都忘了備份tags 想自己寫爬蟲來爬eh的tags 無奈學藝不精,只能寫出狗屎爛扣QQ 先把完成的部份po出來八 拋磚引玉 希望有強者看不下去,全部重寫:P 分為前端和後端 前端: 使用油猴腳本來爬,因為我不會處理cookie 檢視模式用 Extended 因為這樣好處理 用post把資料送到本機python後端 因為我不會用javascript寫檔案 大約5秒爬一次資料(每次一頁),因為server會檔爬蟲,然後我不會處理 https://ideone.com/jpWdeS 後端: 使用python2.7 輸出為文字檔 會在每頁最後一筆資料後面留下",," 待後續處理 不會結束,多按幾次ctrl + c https://ideone.com/ECX7Bo 輸出結果: [Pixiv] カオミン [1236873] female:pantyhose artist:kaoming (神戸かわさき造船これくしょん6) [ROCK`inChair (ジンナイ)] 艶・間宮 (艦隊これく しょん -艦これ-) parody:kantai collection character:mamiya female:big ass female:big breasts female:blowjob female:bondage female:sex toys female:shibari group:rockinchair artist:jinnai [Pixiv] シノノメ・ニャケ太 (28783904) (C94) [パンとケーキ (よろず)] むれパラ☆3足目っ!おウチでおタイツこれくしょん ( 艦隊これくしょん -艦これ-) [中国翻訳] language:chinese language:translated parody:kantai collection female:pantyhose group:bread and cake artist:umakuchi syouyu :goudoushi 格式: 標題 tags(":"開頭的是misc) 下一個標題 p.s. tags可以沒有 目前問題: ex掛了,eh要有銅星才能完整的爬下來 爬的太慢 每頁最後一個標籤會剩下",," 會有新本上傳,因為是以頁數定位的,所以可能會有重複or漏掉 希望能處理成json格式 狗屎爛扣 安裝&使用方式: 前端: 油猴打開 新建腳本 貼上 https://ideone.com/jpWdeS ex 設定成這樣 https://i.imgur.com/or7QJkh.jpg
min = 開始頁數 max = 結束頁數 port = 8000 (其他數字也行,不過要和後端一樣) 後端: 編輯器打開 貼上 https://ideone.com/ECX7Bo 另存成xxx.py 安裝python2.7 python2.7 xxx.py port = 8000 (其他數字也行,不過要和前端一樣) file name = name (會存成name.txt) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.231.121.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AC_In/M.1564170782.A.E21.html ※ 編輯: wei115 (125.231.121.164 臺灣), 07/27/2019 03:55:03 ※ 編輯: wei115 (125.231.121.164 臺灣), 07/27/2019 05:18:41

07/27 05:31, 4年前 , 1F
07/27 05:31, 1F

07/27 05:31, 4年前 , 2F
可以睡覺拉~
07/27 05:31, 2F

07/27 08:51, 4年前 , 3F
推技術蕉流
07/27 08:51, 3F

07/27 09:17, 4年前 , 4F
萬神殿連coding版的業務也接收了
07/27 09:17, 4F

07/27 09:19, 4年前 , 5F
07/27 09:19, 5F

07/27 10:44, 4年前 , 6F
請問一下沒有銅星的話是否就看不到所有tags?QAQ?
07/27 10:44, 6F

07/27 11:12, 4年前 , 7F
備份的tags是全部
07/27 11:12, 7F
文章代碼(AID): #1TEreUuX (AC_In)