Re: [情報] 線上笈成資料庫
※ 引述《gentlwind (ㄉㄊ)》之銘言:
: 電子檔來源,以往我是採用CCMP版本,應該也是東湊西湊出來的,需要校對。
: 訓詁學的部分,實在很耗神,個人認為不宜一開始就當作重點工作。
: 蔥葱之別的問題,其實是異體字,我以前是參考教育部的異體字典網路版做取代。
: 造字(不管用外碼還是畫圖),檢索的問題也許可以用拆字的方式處理。
: 例如堃拆成方方土 [原來PTT有支援UNICODE喔...為什麼國泰不行]
: 要搜尋的時候打方方土
: 我不懂PHP(每次買書就丟著),組字程式也許可以用 "前置字元+拆字"這種假外碼來儲存
: 這樣就能搜尋了
目前的系統大致上就是這樣做的 http://j.mp/JLOOO6
比如,搜尋像「鼻冘」這樣的組字式,可找到原始碼中的字 http://j.mp/K9px4U
而在實際進入頁面時,這個字會被自動替換成組合好的圖片。
然而,許多字是 Unicode 本來就提供的,此時會直接使用相應的 Unicode 字元。
像「艹牛」「艹膝」二字都是 Unicode 有的字 http://j.mp/Jyn42R
這樣一來,輸入「艹牛艹膝」是找不到這兩個字的,更別說「艸牛艸膝」了。
另外,有些字雖然 Unicode 有,
但新細明體、標楷體沒有它們,內建的輸入法也無法輸入這些字,
直到 Windows 7 才有內建 Unicode Ext A 和 Ext B 的輸入法表格及字體(微軟正黑)。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.45.68.16
※ 編輯: danny0838 來自: 118.168.102.201 (05/29 23:18)
→
05/30 00:20, , 1F
05/30 00:20, 1F
推
06/01 00:29, , 2F
06/01 00:29, 2F
→
06/01 00:29, , 3F
06/01 00:29, 3F
討論串 (同標題文章)