[-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.34

看板Browsers作者 (道可道非常道)時間5年前 (2019/03/01 00:56), 5年前編輯推噓6(607)
留言13則, 4人參與, 5年前最新討論串1/1
網頁剪貼簿 (WebScrapBook) 0.34.0 https://github.com/danny0838/webscrapbook 進入連結後在 Readme 下面的 Downloads: 可看到下載連結 前情提要:請在本版搜尋 ScrapBook 最近的重點更動(0.19.* → 0.34.0): * 套件名稱更名為 WebScrapBook(之前是 Web ScrapBook)。 * 大幅改善介面,比如那一坨拉庫的擷取選項現在可以按「?」顯示詳細說明; 按住 Ctrl 選取多個分頁可一起擷取,手機版可直接擷取目前分頁,等等。 * 大幅重構及改善程式碼架構,讓未來更容易擴充。 不過有個小代價是為了使用超好用的 async/await, 最低支援版本提高至 Firefox 52/Chromium 55(以前是 Fx 48/Chr 49)。 * 由於 AMO 對安全性的堅持(還等了夭壽久...), 最終放棄在內建封存網頁檢視器支援 JavaScript。 不過反過來說之前的方式的確也不是長久之計, 加上需要擷取 JavaScript 且擷取後能用的機會本來很微小, 暫時就先這樣吧。 之後預計又會有大改版,這裡做個小報告順便徵詢一些意見: WebExtension 不支援許多關鍵功能(比如存取檔案系統), 因此若要 WebScrapBook 有像傳統 ScrapBook X 那些強大的功能, 在系統安裝輔助程式是必要的。 這議題擺了非常久,細節就不多說,之前的討論可參考這裡: https://github.com/danny0838/webscrapbook/issues/2 目前的規畫是用 Python 寫一個後端程式, 情況順利的話以後使用 WebScrapBook 的方法大概像這樣: 1. 在系統上安裝 Python 3.5+ (用不用管理員權限裝都可以) 2. 在系統上安裝 WebScrapBook 後端程式的 Python 套件 (一般來說到命令列輸入 pip install webscrapbook 就可以完成) 3. 在命令列進入想當資料庫的資料夾(假設叫做 D:\scrapbook), 輸入 wsb config 之類的初始化命令完成初始化, 會自動建立一個 .wsb 資料夾存放設定檔和啟動腳本。 4. 初始化完成後, 以後執行 D:\scrapbook\.wsb\serve.py 就會自動啟動後端程式架起伺服器, 伺服器架起來就可以用瀏覽器存取 D:\scrapbook, 假設伺服器「網站」位址設定在 http://localhost:8080/, 就到 WebScrapBook 選項把剪貼簿位址設定為 http://localhost:8080/, 之後 WebScrapBook 擷取網頁就會自動傳到伺服器, 也會有按鈕可直接進入後端資料庫的首頁, 可以用瀏覽器直接查看擷取資料列表,或開在側欄。 伺服器還可以設定成開放外界存取(得先會設定防火牆及路由器就是), 以後人在外面可以用手機的 WebScrapBook 把資料直接存到電腦。 5. 後端程式還可以提供其他功能: * 完整支援 .htz/.maff 壓縮格式, 進入伺服器網址瀏覽這些檔案就和看一般網頁一樣。 * 基本的檔案操作:增刪資料夾及檔案、上傳檔案、資料夾打包下載等。 * 和本地系統整合:可從瀏覽器把檔案用本地程式啟動,或開在檔案總管裡。 * 編輯功能:編輯文字檔、 編輯網頁(包括舊 ScrapBook X 的螢光筆、劃線等都能做到)、 編輯 Markdown 筆記(儲存後可直接看 HTML 輸出)等等。 * 如果已經有架 Apache 或其他伺服器, 可以用 WSGI 轉接到這個後端伺服器; Python 非常模組化,有心的話也可以寫另一個程式調用 webscrapbook 模組。 * 後端程式本身也提供一些命令列工具,大概會包括幾個功能: * 轉檔:比如從舊版 ScrapBook X 及 WebScrapBook 匯入資料庫 * 建置全文搜尋索引 * 輸出成靜態網站(以便整批丟到手機上看,或架到 GitHub Page 等等) 其他目前打算做的一些改變, 可能會影響過去使用 ScrapBook X 或 WebScrapBook 的習慣, 若有什麼想法請不吝提出: * 資料結構調整:為了讓資料更簡潔更好組織,預計把以往 ScrapBook X 的架構: <scrapbook>/scrapbook.rdf <scrapbook>/search.html <scrapbook>/data/<資料檔> <scrapbook>/tree/<索引檔> 或 WebScrapBook 索引器的架構: <scrapbook>/data/<資料檔> <scrapbook>/tree/<索引檔> 改成像這樣: <scrapbook>/.wsb/<設定檔> <scrapbook>/.wsb/server/<伺服器快取檔等等> <scrapbook>/.wsb/tree/<索引檔> <scrapbook>/<資料檔> 簡而言之就是以後 webscrapbook 後端程式產生的都統一丟在 .wsb 資料夾裡。 * 拿掉目前的索引器: WebExtension 套件的功能畢竟很難像 Python 程式那樣完整, 要維護兩套也很麻煩,乾脆拿掉。 會衝擊到的主要是想要索引功能又不想安裝後端程式的人, 以及手機版(雖然手機版的索引功能本來就很難用), 不曉得有沒有版友是這種人?XD * 拿掉儲存成單一 HTML 頁面的功能: WebScrapBook 原始目的是網頁的長久保真封存, 單一 HTML 頁面雖然方便, 但有很多地方會失真或失效、檔案會變肥、也不容易用其他程式轉檔, 不是長久封存的理想選擇。 之後後端程式應該會加入轉存成單一 HTML 頁面的功能, (技術上以往 ScrapBook X Converter 能做的所有事後端程式都能做到, 只是要時間寫,而且可能是從命令列執行,介面沒那麼友善) 想把擷取的資料再另存成單一 HTML 網頁分享給別人還是可以, 只是就不再提供直接從瀏覽器套件儲存成單一網頁的選項。 -- 《終結內容農場》瀏覽器套件 Chrome: http://bit.ly/CFTGC (桌機 & Android 手機) Firefox: http://bit.ly/CFTFx 真相1: http://bit.ly/CFTss1 真相2: http://bit.ly/CFTss2 詳細介紹:http://bit.ly/CFTinfo -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.226.152 ※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1551372978.A.492.html ※ 編輯: danny0838 (111.243.226.152), 03/01/2019 01:10:27

03/01 09:10, 5年前 , 1F
如果只是單純擷取網頁(部份或整頁)為 HTZ,
03/01 09:10, 1F

03/01 09:11, 5年前 , 2F
以後改版也要安裝後端程式才能用嗎?
03/01 09:11, 2F

03/01 10:24, 5年前 , 3F
封存頁面檢視器會保留
03/01 10:24, 3F

03/08 21:52, 5年前 , 4F
如果管理功能能有以往般強大,要安裝後端也沒問題
03/08 21:52, 4F

03/11 20:09, 5年前 , 5F
試了一下,新版的 reddit 好像無法正常儲存,例如:
03/11 20:09, 5F

03/11 20:09, 5年前 , 6F
03/11 20:09, 6F

03/11 20:11, 5年前 , 7F
看到的是這樣:https://i.imgur.com/gSr36rQ.png
03/11 20:11, 7F

03/11 20:11, 5年前 , 8F
整頁儲存變成這樣:https://i.imgur.com/sgBKYqD.jpg
03/11 20:11, 8F

03/11 20:18, 5年前 , 9F
試著把腳本或其他元素選儲存也一樣,無法正常顯示
03/11 20:18, 9F

03/11 20:25, 5年前 , 10F
改儲成 HTML,也一樣無法正常顯示
03/11 20:25, 10F
Reddit.com 的問題是樣式無法順利擷取, 這牽涉到一些複雜的問題, 以後有空才能做完整的處理。 暫時的解決方案是用擷取原貌, 就能讓樣式正常呈現。 ※ 編輯: danny0838 (111.243.221.189), 03/12/2019 22:15:50

03/13 19:58, 5年前 , 11F
儲存頁面時,會另外跳出的一個視窗處理,然後又跳出一個
03/13 19:58, 11F

03/13 19:59, 5年前 , 12F
視窗,讓人選擇下再到自己電腦裡,這兩個部份可以不要顯
03/13 19:59, 12F

03/13 20:00, 5年前 , 13F
示出來嗎?另外儲存所有分頁時,可以讓人選擇要哪些分頁?
03/13 20:00, 13F
擷取頁面跳出的視窗大概不會改, 因為目前 WebExtension 架構沒辦法弄一個彼此獨立能隨時在出狀況時顯示訊息 、且使用者能隨時喊卡中止的 Worker,開新視窗已經是目前能想到的最佳方案。 至於擷取完成後跳出選擇儲存位置的視窗, 擷取選項「儲存擷取資料至:」不要設定成「獨立檔案」就不會有了。 (這部分之後可能會變,細節參見 http://bit.ly/2HAZFBh※ 編輯: danny0838 (111.243.217.246), 03/15/2019 01:04:09
文章代碼(AID): #1SU1AoII (Browsers)