[情報] 中醫笈成缺字歸零計畫
如有查詢電子古書的經驗,應該會發現網路上許多文本充斥著顯示不出來的缺字
,有的顯示成空白,有的是造字碼,有的是一串亂碼,有的則是直接少一個字。
在 Unicode 一統江湖以前,早期的數位文本在遇到電腦缺字時,多半是自行建
立造字,但造字很難交換,對於缺少造字檔的機器而言,通通都是無意義的亂碼。
笈成目前收錄的文本,大多是有造字的。理論上只要人工建表再用程式把造字自
動轉換為對應的 Unicode 字元或 IDS 即可,笈成也已經這麼做了,然而很不幸
地,其中有些檔案使用了多個造字檔,也就是同一個造字碼在同一個檔案的不同
位置可能對應不同造字,這導致程式轉換只能暫且轉成比較可能正確的字,並非
100% 可靠,因此還需要人工逐一檢查所有被轉換過的造字,並修正錯誤的轉換。
在處理完這批造字之前,相關檔案都不適合做其他批次操作,否則一但檔案大幅
變動,檢查造字將更為困難,修正造字也容易造成衝突,導致處理成本爆炸性增
加,還容易發生不可預期的錯誤。目前有許多品質改善計畫——例如修正某些明
顯的簡轉繁錯誤等等——都因此長期處於延宕狀態。
據計算這批檔案有 1069 個,小編長期爆肝之下已檢查及修正了許多造字較少的
檔案。即便如此,目前仍有 260 本以上的書要處理,每本書的造字少則 30 幾
行,多則數百數千行(按:每行可能有一至多個造字)……。
所以笈成需要大家幫忙!詳細操作方法在此:
https://gitlab.com/jicheng/jc.data/-/issues/10
基本上只要安裝及學習一個軟體,難度不高。
如果有人幫忙,分工之下或許有希望盡快移除這顆卡路巨石。否則以小編一人之
力,恐怕還要不知道多少年才能做完,前面所述延宕中的工作也會跟著無限延期
……。
至於花時間幫忙笈成有什麼好處,就請自個兒衡量囉。以下聊備一格:
1. 最直接的,未來檢索或閱讀笈成文本時,可以看到正確內容,而不是錯字或
意味不明的叉燒包。(其他網路上能查到的電子文本幾乎都是叉燒包;否則
早就被笈成收錄了)
2. 你的貢獻會永遠保存:笈成所有資料和版本歷史都是公開的,即使有一天笈
成停止營運,你還是可以把整個版本庫複製回去,並從中找到你當初付出心
血校對的成果。
3. 處理過程中可以學習文獻考證技能及檔案比對、版本控制等工具,可能對未
來做文獻研究有所幫助。
4. 基於編輯需要,或有機會得到笈成秘本、金手指、或其他神秘小禮物。
5. 基於互利原則,提供較多協助者,未來需要技術支援時(例如想要笈成增加
什麼功能,或需要用某些方法探勘笈成資料等等),我們會考慮優先提供協
助。
6. 做功德,積陰德,消業障(?)
--
其他可同時進行的其他計畫會統一列在版本庫議題列表,歡迎高人協助:
https://gitlab.com/jicheng/jc.data/-/issues
更多可以支持笈成的方法:
https://jicheng.tw/tcm/help/contribute.html
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.164.25.89 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/ChineseMed/M.1629116451.A.DBE.html
※ 編輯: danny0838 (1.164.25.89 臺灣), 08/16/2021 20:31:29
推
08/16 23:14,
2年前
, 1F
08/16 23:14, 1F
推
08/17 14:23,
2年前
, 2F
08/17 14:23, 2F
推
08/17 23:59,
2年前
, 3F
08/17 23:59, 3F