[情報] 中醫笈成缺字歸零計畫

看板ChineseMed作者 (道可道非常道)時間2年前 (2021/08/16 20:20), 2年前編輯推噓3(300)
留言3則, 3人參與, 2年前最新討論串1/1
如有查詢電子古書的經驗,應該會發現網路上許多文本充斥著顯示不出來的缺字 ,有的顯示成空白,有的是造字碼,有的是一串亂碼,有的則是直接少一個字。 在 Unicode 一統江湖以前,早期的數位文本在遇到電腦缺字時,多半是自行建 立造字,但造字很難交換,對於缺少造字檔的機器而言,通通都是無意義的亂碼。 笈成目前收錄的文本,大多是有造字的。理論上只要人工建表再用程式把造字自 動轉換為對應的 Unicode 字元或 IDS 即可,笈成也已經這麼做了,然而很不幸 地,其中有些檔案使用了多個造字檔,也就是同一個造字碼在同一個檔案的不同 位置可能對應不同造字,這導致程式轉換只能暫且轉成比較可能正確的字,並非 100% 可靠,因此還需要人工逐一檢查所有被轉換過的造字,並修正錯誤的轉換。 在處理完這批造字之前,相關檔案都不適合做其他批次操作,否則一但檔案大幅 變動,檢查造字將更為困難,修正造字也容易造成衝突,導致處理成本爆炸性增 加,還容易發生不可預期的錯誤。目前有許多品質改善計畫——例如修正某些明 顯的簡轉繁錯誤等等——都因此長期處於延宕狀態。 據計算這批檔案有 1069 個,小編長期爆肝之下已檢查及修正了許多造字較少的 檔案。即便如此,目前仍有 260 本以上的書要處理,每本書的造字少則 30 幾 行,多則數百數千行(按:每行可能有一至多個造字)……。 所以笈成需要大家幫忙!詳細操作方法在此: https://gitlab.com/jicheng/jc.data/-/issues/10 基本上只要安裝及學習一個軟體,難度不高。 如果有人幫忙,分工之下或許有希望盡快移除這顆卡路巨石。否則以小編一人之 力,恐怕還要不知道多少年才能做完,前面所述延宕中的工作也會跟著無限延期 ……。 至於花時間幫忙笈成有什麼好處,就請自個兒衡量囉。以下聊備一格: 1. 最直接的,未來檢索或閱讀笈成文本時,可以看到正確內容,而不是錯字或 意味不明的叉燒包。(其他網路上能查到的電子文本幾乎都是叉燒包;否則 早就被笈成收錄了) 2. 你的貢獻會永遠保存:笈成所有資料和版本歷史都是公開的,即使有一天笈 成停止營運,你還是可以把整個版本庫複製回去,並從中找到你當初付出心 血校對的成果。 3. 處理過程中可以學習文獻考證技能及檔案比對、版本控制等工具,可能對未 來做文獻研究有所幫助。 4. 基於編輯需要,或有機會得到笈成秘本、金手指、或其他神秘小禮物。 5. 基於互利原則,提供較多協助者,未來需要技術支援時(例如想要笈成增加 什麼功能,或需要用某些方法探勘笈成資料等等),我們會考慮優先提供協 助。 6. 做功德,積陰德,消業障(?) -- 其他可同時進行的其他計畫會統一列在版本庫議題列表,歡迎高人協助: https://gitlab.com/jicheng/jc.data/-/issues 更多可以支持笈成的方法: https://jicheng.tw/tcm/help/contribute.html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.164.25.89 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/ChineseMed/M.1629116451.A.DBE.html ※ 編輯: danny0838 (1.164.25.89 臺灣), 08/16/2021 20:31:29

08/16 23:14, 2年前 , 1F
這搞的出來厲害...冏
08/16 23:14, 1F

08/17 14:23, 2年前 , 2F
推...有時候這網站有古文可查真的很開心
08/17 14:23, 2F

08/17 23:59, 2年前 , 3F
推推推
08/17 23:59, 3F
文章代碼(AID): #1X6bWZs- (ChineseMed)