[軟體] pyGNovelDL

看板CFantasy作者 (nahgnimiast)時間3年前 (2020/10/24 15:16), 3年前編輯推噓7(705)
留言12則, 9人參與, 3年前最新討論串1/1
如果版主覺得這篇文章不妥的話,請通知我刪除,謝謝 最近試著寫python的UI程式,弄了好久總算寫出一個可 以用的介面, 有興趣的版友可以看看 用途: 使用爬蟲抓取網頁的文字後,存成txt或其它格式。 程式本身可產生純文字txt和青空文庫txt, 配合AozoraEpub3可將青空文庫txt轉成epub 配合kindlegen可將epub轉成mobi 配合kepubify可將epub轉成kepub python的原始碼在此 https://github.com/tsaiminghan/pyGNovelDL 透過pyinstaller打包好的exe 包含其它轉檔程式(java, AozoraEpub3.jar ...)放在extra資料夾內 https://drive.google.com/drive/folders/1l_4FPAIohVKPRZAuTI6ye-T3pKjIIIZ6?usp=sharing 縮址: https://tinyurl.com/y4jvawnh 使用方法 (設定) 1. 點擊window.exe,開啟程式(最小化時會縮到右下角) https://imgur.com/a/3quqMIO 2. 選取設定頁,點擊...按鍵,確認執行檔位置正確 https://imgur.com/a/JY6NDMI (下載) 3. 貼上小說網址,選擇開始分析 https://imgur.com/a/id6F9pX 4. 分析完成後,會新增一筆任務,選擇開始下載 https://imgur.com/a/1sNx7Xf 5. 下載完成後,開啟資料夾可以看到產出的檔案 https://imgur.com/a/htlh7ms 6. commandline.exe可以使用命令的方法下載, 與 windows.exe兩者獨立無關 -- ps:上面的圖我是隨便找一本章節數少的書抓圖, 書我沒看過。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.196.9 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/CFantasy/M.1603523819.A.ABC.html

10/24 17:03, 3年前 , 1F
正版網頁…也能爬?
10/24 17:03, 1F

10/24 17:08, 3年前 , 2F
這樣是不是不用擔心變正版受害者XD
10/24 17:08, 2F

10/24 17:18, 3年前 , 3F
只能爬非vip的文字
10/24 17:18, 3F

10/24 18:08, 3年前 , 4F
先推一個
10/24 18:08, 4F

10/24 18:14, 3年前 , 5F
不錯喔 現在真的要做正版備份了 不然成為正版受害者
10/24 18:14, 5F

10/24 18:44, 3年前 , 6F
正版如果把JAVA關掉可不可以爬?
10/24 18:44, 6F
起點就只能爬非vip的部分, 跟有沒有java無關 另外vip的部分應該是圖片吧(我沒試過),所以也沒辦法抓到文字

10/24 21:30, 3年前 , 7F
這種其實有點吃網站流量資源,有的網站會對這種方式
10/24 21:30, 7F

10/24 21:31, 3年前 , 8F
有應對方法,像是一段時間內鎖IP之類的限制
10/24 21:31, 8F

10/24 21:32, 3年前 , 9F
另外起點VIP現在不是圖片了
10/24 21:32, 9F

10/24 22:41, 3年前 , 10F
不是圖片 vip也能爬嗎?
10/24 22:41, 10F
不行,就算vip不是圖片,那還要先處理登入才有辦法爬 我沒處理登入的部分 ※ 編輯: tsaiminghan (220.136.107.98 臺灣), 10/24/2020 22:46:57

10/25 00:37, 3年前 , 11F
所以正版還是只能爬不需登入的
10/25 00:37, 11F

10/26 10:36, 3年前 , 12F
登入cookie沒做吧,那還是只能爬免費網站
10/26 10:36, 12F
文章代碼(AID): #1VazJhgy (CFantasy)