[心得] 中文電腦輸入法文化雜譚

看板IME作者 (道可道非常道)時間16年前 (2008/06/08 11:02), 編輯推噓10(1009)
留言19則, 11人參與, 最新討論串1/2 (看更多)
(本文含Unicode字元,PCMan 2007 Combo可正常瀏覽)     中文電腦輸入法文化雜譚 一、緣起   早在清末民初,中國積弱,列強橫行之際,知識分子便總結漢字的缺點是 「三多五難」,「三多」是字數多、筆劃多、讀音多;「五難」是難認、難讀 、難記、難寫、難用。漢字形體多達數萬,常用也有幾千,不花個八年十年, 怎能逐一熟識?漢字形音背離,一字多音、一音多字,若非寒窗苦讀,怎能一 一讀出?漢字筆劃繁多,較諸拼音文字,豈非龜兔賽跑?漢字書面語手口不一 ,文法混亂,邏輯不確,典故繁多,怎能用得輕鬆?無怪知識蔚為特權,文盲 橫屍遍野!   緣英美富強,舉世正途拉丁,拼音成了語言文字進化的必然趨勢;文法、 嚴謹與邏輯思辨則理所當然是工業化、現代化的進步之母。   魯迅嘗謂「漢字不滅,中國必亡」,善哉!包袱沉重如此,何不速速丟棄 ?胡適則推行「我手寫我口」,蓋時人好用典故、砌疊文句、矯飾辭藻,而思 想空泛、言之無物、人人八股,故謂文字當通俗易懂,以闡釋觀點、表達思想 為重,然而昨非今是,今天白話文竟然一字一語,講什麼寫什麼。此外,為求 相容阿拉伯數字與西文,而有直寫變橫寫,右左變左右;為求「精確」而有新 式標點符號,「妳」「它」創造,「們」「被」浮濫;為求表音清楚,利於學 習,而有注音符號的發明和國語的統一。   脫漢之潮日本如是,甚至比中國要早。日文早有假名,拼音易如反掌,無 奈日音變化太少,同音字太多,只得勉而留之。然而難學難寫實在茲事體大, 於是自1923年始,簡化運動斷斷續續推行,筆劃少好寫,気転発関画;字數少 好學,編輯變編集,綜合變總合,理智變理知。至今日本通行1945個「常用漢 字」,多次調整的「人名用漢字」目前約1000個。   國民政府時代,改革呼聲依舊四起,錢玄同先生於1935年抱病起草了《第 一批簡體字表》,錄324字,本於社會通行的俗字,述而不作地減省常用字筆 劃,如气无万个从。結果公布後反對聲浪四起,戴季陶甚至「為漢字請命」, 向蔣介石當場下跪,於是次年暫緩推行。   國共分裂後,共方拉聲更張,據此於1958年定下漢語拼音。但拉丁化不得 躁進,遂以逐步簡化為之。1964年的《簡化字總表》便大刀闊斧,只求簡單, 結構美感不要,同音假借、會意自創、普通話類推樣樣皆來,比方面麵干乾、 惊颜长开,共2235字,但偏旁類推往往無所適從。1977年又公布《第二次漢字 簡化方案(草案)》,即「二簡字」,道首變刀,原泉成元,盯釘成丁,帮邦 预予傅付停仃稀希蕭肖歉欠蛋旦。為了這248規定字和605討論字,全國一片混 亂,人人文盲。實驗失敗,1986年中共廢除二簡,重發《簡化字總表》規範漢 字,至今不渝。而拉丁化之呼聲,早已不知何處。   至於韓、越放棄了漢字教育,改採拼音。馬、新則採用了大陸標準。   簡化漢字並非失敗,即便推行繁體字的台灣,手書仍充斥各式俗寫簡寫, 只差不能忍受書上螢幕上面目猙獰的、形體僵硬的簡化的印刷的白紙黑字罷了 。   1973年巴西,朱邦復先生就職於某文化公司,一朝同儕來了份翻譯手稿, 曰急件速理,走前又說今晚上市,朱只當語言誤會,奉命辦理,聯絡各部。只 見全體動員,打字的打字,校對的校對,美工的美工,製版的製版,印刷的印 刷,裝訂的裝訂。十二小時後,卡車卡車的印刷書便衝進他的眼廉。   語言誤會何在?當知鉛字排版廠房極大,生產成本高昂,資源耗費甚鉅, 工人訓練費時,尋字困難無比,排字效率低落,如有缺字還得另刻。初排三個 月,再校再排,一年上市便該額手稱慶,一日上市絕對天方夜譚,肯定是葡語 不熟,聽錯了罷!誰知西方打字機發達,只需幾十字母,便可運指如飛,還要 怪打字太快,機器卡住,特製個QWERTY鍵盤拗手。漢字洋文,竟是一日 一載之遙,三多五難實在要加五:印刷難難難難難!   有感於此,他矢志救亡圖存,回到台灣,他認為應由漢字的結構分析做起 ,再以有限字鍵輸出。仿會意與形聲造字原則,把漢字分成「字首」與「字身 」,字首係歸類,字身係描述,猶生物二名法之屬名種名。剪下無數的字典、 報章,排列組合,歸納分析,再加以平均分配、編碼,遂成「形意檢字法」, 並申請專利。   工作之際聽聞「電腦」,乃覺電腦資訊必定改造世界,政府行政不能缺, 圖書館必備,資料查找不可少,印刷也需要。編碼既成,總得應用,於是他訪 遍各家電腦公司與電機系教授,誰知竟異口同聲曰:中文電腦不可行,不妨趁 此棄漢,「英語即將成為國際語,英文是世界上最理想的文字,我們要生存、 進步,就該全面放棄漢字,大家說英語!」   求助無門,只得自重,幸因緣際會,朱氏於1979年得接觸電腦,於是自學 程式語言,首次將形意檢字法用於輸入,即「形意輸入法」。蔣緯國將軍以其 功媲倉頡,重名為「倉頡輸入法」。   然而朱氏系統未被採用,業界渾然未知中文電腦是何方神聖。他於是自立 公司,多面合作,陸續推出【天龍中文電腦】、【中文漢卡】、【中文打字機 】,放棄倉頡輸入法專利後又發展【聚珍大字庫】、【聚珍中文整合系統】、 【微軟中文視窗系統3.0】等等。   「中文電腦之父」努力有了成果,90年代中文電腦終於興起,微軟看上了 ,以強大的手腕獨佔市場,國產軟體與作業系統全面敗陣。 二、困境   中文電腦勃興,可以一日一書,中國人便從此過著幸福快樂的日子?革命 尚未成功,同志仍須努力,中文電腦限制仍多,說起來是五個盤根錯節:缺字 、編碼、排序、輸入法、空間。   缺字由來已久,五大碼(Big5)僅收13000多字,於是山沒有峯,絲沒有綫 ,游錫方方土,酵素作酉每。為因應需求,有組字、有造字,有小字圖,有擴 充字集,有新編碼系統。可惜未經統一,好端端的文件換台電腦就面目全非; 若要上網搜尋,谷歌雅虎遇上「亂碼」恐怕也愛莫能助。   萬國碼(Unicode)雖擴充許多,然而至今Windows XP系統的字體,尚不足 23000字。若要加字,還得向外國「電腦專家」申請。明知不夠,怎不未雨綢 繆?只怪人性好逸惡勞,每個漢字要一筆一筆地描,編碼要一字一字地編,誰 願意為使用率不到0.1%的罕用字勞心費神?再者,早期電腦空間不過數十到數 百KB,只好節衣縮食,刖足適屨。   排序也茲事體大。眾所周知,拼音文字查起字典輕而易舉,中文字典則是 繁文縟節,總得一番翻前覆後,終於發現此字未收。科學書籍末尾的名詞索引 ,恐怕排版的人排得半死,使用的人還找到頭暈,最好去翻原文書。   電腦排序通常依照內碼,內碼怎麼編排?部首歸類很條理,但有多少人知 道命是口部,丘是一部,煩不是頁部,變不是攵部,甚至书是乙部,丽是丶部 ?筆劃直覺許多,可惜數來麻煩,效率低落,不小心就錯,同筆劃字多如繁星 ,甚至不同國家數法不同。於是資料夾下檔案一百,英文輕輕鬆鬆地找,中文 氣喘吁吁地爬。   當今電腦內碼仍以筆劃為主,基本堪用,偶爾缺字就造一個,位於何處? 須知中文字集有字面之分。「粘」在「鐵」後面,因為粘是罕用字,和常用字 的鐵不能一概而論;再如「发」置「籲」後,蓋因簡體字和繁體字字面不同; 同理,先來後到不同字面,使用者造字另一字面……難怪無論是中文網頁或國 產軟體,總得為檔案立個英文別名。   最大的漢字集CNS11643收字高達76067,如何輸入?牛「仔」褲、「法」 國、「癌」症、「睪」丸、「哈」巴狗、……十年前的標準讀音已強迫作古, 十年後不知為何?教育部、微軟、老百姓,誰說的算?而即便語言專家,會唸 的恐怕也捉襟見肘,何妨試試國文老師:乂、丌、丼、囟、孖、泵、頞、嬲、 醪、蠿、龘、……。   再如科學新字胜羥羧巰,狀聲字呣欸誒喲,閩字嘸阮佮囝,梵字唵吽誐佉 ,粵字冇啲睇啱,日字辻畑峠気,複音字浬瓩嗧圕,……漢字方言多、讀音雜 ,尚有非北京話,何從注音?即便心中有聲,「力」音選字151,倘若字集八 萬,不知700字從何找起?   資訊就是力量。科學可以,請學好英文;電腦可以,請學會英文。 三、倉頡   朱邦復認為,漢字具備六大「基因」:字形、字音、字義、字碼、字序、 字辨。前三者耳熟能詳,後三者則是資訊時代的必然需求。   他將漢字分析出600字首和9000字身,均分至各個鍵位,歸納出如下的「 倉頡字母」:日月金木水火土,斜點交叉縱橫鉤(竹戈十大中一弓),人心手 口,側並仰紐方卜(尸廿山女田卜)。這些字母可和英文字母一一對應:AB CDEFG,HIJKLMN,OPQR,STUVWY(X[難]和Z留作 特殊用途),正是中文的序號。   將文字拆成編碼以供排序、檢索,即是「倉頡檢字法」,應用之一便是電 腦輸入,即「倉頡輸入法」。其規則首先是將字碼變形,衍生出「輔助字形」 ,作為拆字的基本單位(字根)。如水→氵,戈(點)→丶,廿→艹,田(方 )→囗。倉頡輸入法的字根共有一百多。   第二,判斷漢字結構,不能切割者為「整體字」;能切割者,取其最左、 最上、或最外者定為「字首」,其餘定為「字身」。如「好」可切成「女」、 「子」,「女」是字首,剩下的「子」是字身。字身若可再切,同理可切成「 次字首」與「次字身」。   第三,依左而右、上而下、外而內的視覺順序取碼。整體字取4碼(不足 則全取,超過則123尾。餘類推)。其餘各型為:字首2、字身3;字首2 ,次字首2、次字身1;字首2,次字首1、次字身2。   如此即可見字拆碼,如「未」拆為「十木」;「沖」拆為「水.中」;「 掛」拆為「手.土土.卜」;「國」拆為「田.戈.口一」。以之為內碼,便可有 效地排序和編碼漢字。   麻煩的是異字重碼,必須極力避開。倉頡輸入法依推出時間分一代至六代 ,微軟內建的是三代的修改,現今推廣的是五代,最新的六代重名為「蒼頡檢 字法」,目前尚未公開,僅留供合作單位使用。五代的重碼藉由前加「X」避 開,若超過五碼則去尾,如「態」編碼為「IPP」,「庇」為「XIPP」 ,「忒」為「XXIPP」。六代則後加1~5避開,如「IPP」、「IP P1」、「IPP2」。倉頡內碼是一碼5位元;一字為5碼加7個識別位元 ,共32位元;亦有壓縮成16位元,以增進傳輸效率者。   朱氏系統內含【向量字形產生器】,可處理輸入的倉頡碼,並據之組成字 形。由於倉頡碼有字首、字身之分,該系統將字首與字身的繪圖指令分別儲存 ,再處理少數例外,如此便毋須一字一圖,可大幅減省空間、增進效率。此外 將無字空間加以規則處理,便能組出無數新字。   朱氏於1995年更新的漢字字形產生器,僅佔160 KB,可產生已存在字6萬 以上,並可組成新字近1000萬,如「阝川」、「鳥賤」。速度也相當驚人,在 450 MHz的電腦上,每秒可產生及顯示16x16之字型46000個。可產生的字體尚 有明、黑、圓、宋、楷、隸等,大小變化任意,筆劃粗細任意,筆劃填充任意 。反觀當今系統字集,新細明體合細明體,不到23000字,即佔用8.6 MB;標 楷體字數相同,佔5.1 MB;即便1500字的英文字體Times New Roman,也要 400 KB。朱氏系統若廣泛採用,大概一切電腦、手機、醫學儀器,以至各式電 子產品,均無缺字之虞。   將組字過程反轉,即為辨識。先把點陣圖轉為向量,再辨識其中的倉頡字 形,即得倉頡碼,也就是內碼。如此點陣辨識或向量手寫辨識皆可實現。   至此,字形、字碼、字序、字辨問題一應料理。而前述中文電腦的五大困 境:缺字、編碼、排序、輸入法、空間,也悉數解決。這是1995年以前的事。 四、思維   朱邦復認為,漢字一字一音,最適合語音辨識,因此正積極發展。倉頡系 統採取形聲字的「本音」,如詣取旨音、曇取雲音,音變則另建資料庫。而英 文連斷字都有困難,例如「I Scream」和「Ice cream」發音相同。   但中文的與眾不同在於「字義」。人人皆知block障,pre前,dog狗,何 以如此?古人如此。何以古人如此?……中文卻本質意象,個個有憑有據。江 者,水之工也,是為大川;河者,水可通也,是為暢流水道。滑者,水流骨( 硬物)上,平順無摩擦也。思者,田心,耕耘於心,想也。信者,人之言,古 之「消息」「函件」,言者須「無誤」,聽者須「不疑」也。   或云某某純粹形聲,某某實屬訛傳,某某穿鑿附會。然而聲音思維豈風馬 牛不相及?古人為文可如此客觀考據?學者今云說文「武」、「信」錯解,改 是不改?求千秋萬世客觀事實乎?通古今文人心之所嚮乎?   代表行走的「彳」和代表停止的「止」合成「辵」,表示忽走忽停。「車 」和「辵」合成「連」,「道上之車,一輛接著一輛」,表示「相互接續」, 又引申定義為「陸軍編制」。連再組合成詞,所以「連任」表示「接續地任」 ,「連忙」表示「接續地忙」。「素」是糸(絲)上有光澤,表示本色(白色 )的絲,所以代表本質、白色。如此「元素」、「素來」、「素色」、「抗生 素」、「茹素」、……皆可推知。而獨體的象形文彳止水糸,則不妨翻翻古籍 ,以明瞭起源為何。   梵語拉丁,變形數倍於英語;蒙滿粵閩,語法詞序也迥異北京。古時民族 眾多,方言複雜,一字多義和各式倒裝由此而生。書面語能被「約定俗成」, 被熟記、流傳、共用,必須符合各家主觀感受。   除外來語、部分假借字、純形聲字以外,常識、感覺與聯想緊繫了中文, 從獨文到字,從字到詞,從詞到句,從句到章,從章到書,從書到人,到千千 萬萬的成語、典故。錫銀銅鉛鐵、江河滑湯油並非孤立,星笙性甦產、晲倪鬩 霓齯互相關係,汽車、卡車、火車、公車、貨車分類井然,車輪、車架、車軌 、車站、車主概念清晰。文而字,字而詞,始於「零件」,逐次組合,貫之以 一,死記何須?如此不僅能靈活運用、精煉文章,更能輕鬆學習,「學中文只 消三個月。」這便是朱氏《字易》與《基因字典》。   中文句法依循因果,自然多,定義少,宛如紙上動畫,與電影「蒙太奇」 手法如出一轍。第一幕男女約會,第二幕她打他一掌,第三幕他獨自啜泣,只 須畫面幕幕,便可想而知。朱邦復設計了一套【圖文系統】,只須輸入中文, 便可合成動畫,當然相關的模型、名物還得事先製成,較著名的成品是【記承 天寺夜遊】(見文末參考連結)。他認為此套系統可大大減低成本,揚言「傾 銷一億套,一套1美金,連盜版都不怕!」網路動畫的傳輸效率有如鴨步鵝行 ,此系統若舉世採用,片子1G成了文字十K,時空效率豈止提升百千?   看一個字,便浮現無數聯想期待;看一個句,和前文產生綿密交織;看一 個段,和已知常識相互印證。前後貫通、融為一體,言外之意豐富,漢字滋乳 人類常識,章句躍著縷縷思維,對此分析、內觀,便知人如何想、如何悟。   析出蘊藏的章法、思路,套用於電腦,便可理解人類語言。今日「人工智 慧」仍為西方主流,文法嚴謹,運算線性,速度有限,常識缺乏,應用範圍侷 限。人工智慧瓶頸仍多,如何建置數之不盡的常識、知識庫?如何分析?如何 運算?如何高速運算?   朱氏系統以易經的二分原則,將漢字逐層分類、分析,得出了「概念結構 」。以「逃」字為例,先分主觀、客觀,得1(主觀)。主觀分成認識、行為 ,得1(行為)。行為分生存、社會,得0(生存)。生存分官能、體能、動 作、生活,得01(體能)。體能再分八類,得011(追動)。前述的主觀 、客觀、認識、行為等等,自然是由眾多漢字歸結而成。11001011即 是「逃」的分類字元,再加上1個區別字元和2個定義字元,如此區區32位 元,便能包羅萬象,以簡御繁,空間極省,速度極快。   「逃」參照「辵」、「兆」,便衍出無數聯想,在高速系統下,一面向後 取文,一面交織運算,01便微妙微肖地擬人思考。「思考」結果可作多種輸 出,若符合人類所想,彷彿便有心智能力,即是成功的「人工智能」(不等於 「人工智慧」)。輸出方式之一便是動畫,亦即【圖文系統】,假以時日電腦 或可和人類閒話家常。另外,理解也是語音輸入或語音操作的必備條件,機器 若不理解,何從正確選字、無誤執行?   以往認為知識必須精確、邏輯、嚴謹、條列、切割,才適合學習傳播;然 而要靈活運用,記憶仍不可或缺。有些人開始同意,比起綱舉目張的科學,村 婦講的故事更印象深刻。心理學研究指出,漢字較諸拼音,大腦活化部位更廣 ,有「開發右腦」和「形象思維」之功。以往認為形象思維原始、落後,遠不 如邏輯、線性思維;近來卻認為形象思維創造力更大,處理複雜事物的能力更 強,著名的愛因斯坦即是這樣的科學家。數學家解題、推公式,多半先靠感覺 ,嚴密的推導往往只是說服你我的說辭。   何為思維的本質?何為智慧?如何能深專業之究竟,博天地之大道? 五、各家   繼倉頡以後,注音和各種輸入法紛紛出籠。放棄專利而內建於主流系統的 有【大易(1988)】、【行列(1992)】。注音的人工智慧版如【新注音】、【新 酷音】、【自然】;傳統倉頡的改良版如【自由倉頡】、【快速倉頡】、【易 頡】、【亂倉打鳥】、【大新倉頡(2001)】;其他原創如【輕鬆(1993)】、【 嘸蝦米(1989)】、【華象(1987)】、……不勝枚舉。中文輸入法已超過百種, 著實百家爭鳴。   嘸蝦米輸入法以英文為字碼,形音義對映字根,例如哈是OAO,粉是M BD(米八刀),轟是CCC(C=Car=車);拆碼只須123尾,毋須字首 字身。由於可練習英打,加上字根有趣,許多人為之著迷。她有ワサビ (WaSaBi),也能红卫兵;可以ㄅㄆㄇ,也能㊣◆★;一碼對八七,二碼寸不夕 ,簡根俞並易、即是曼周幸。由於商利誘因,教師、打字選手一一入夥,比賽 成績優異,職校相繼選用。   行列也釋出專利,系統內含。她用科學的鍵盤定位,使盲打得以速成。首 先定義十種基本筆形:1一,2└,3〡,4十,5┐,6丶,7ㄇ,8八\ ,9/,0口。其次定位字根,例如「大」首筆是橫,對應1行(QAZ行);末 筆是捺,對應下列(1-4為上,0或無為中,5-9為下),便得鍵位「Z」。接著 依筆順拆字取碼,例如「景」→「日〦口小」→[01 61 0- 38]→[0^6^0-3v] (PY;C)。行列編碼123尾,符號表[2^1]~[2^0],簡碼一級[1^2]、二 級[7^3v1]、……,其速度曾達215字/分,超過嘸蝦米的209字/分。不知是推 廣不力或刻板印象,行列目前仍是小眾。   免費的輕鬆輸入法所求不同,她只要易學、輕鬆,不求盲打、神速。輕鬆 字根只有75,取碼只要頭尾,「等」是「竹寸」,「想」為「木心」,簡單 易學。然而選字太多,於是掛上超大詞庫,「總統」四鍵,「原子筆」三鍵, 「柳暗花明」四鍵,「經濟建設委員會」四鍵。其實專業領域亦有詞庫輸入, 比方中醫健保系統,輸入「ㄙㄨㄊ」就能輸出「四物湯」。   各家紛紛主張「易學」、「快速」、「多功能」,免不了還要暗示長江後 浪推前浪。大新倉頡又為繼起新秀,她簡化了傳統倉頡的拆碼規則,並把最常 用的字設計成最少的碼數,擺在最好按的鍵位,又輔以助憶口訣,如一碼字: 「國民與大會,不可以有不法的行為;這對成年人,在家業中,是大來發的一 年。」商人再度獲勝,大新倉頡成功地易學神速,創下記錄227字/分。大新育 了更多師資,養了更多打字快手,設計了更豐富的彩色書籍、互動軟體和教學 影片;加上符號鍵盤、打繁出簡、注音查詢等強大功能;還有網上試用版無限 免費安裝、購買者隨處可用等商業手法,於是小學、國中、高中職紛紛跳槽, 甚至推廣到倉頡已盛的港澳地區。   注音、拼音依舊永垂不朽,國小就會和我手寫我口畢竟誘人。然而中文同 音字屢見不鮮,選字甚為不便,各式自動選詞相應出爐。如今無法盲打依舊牽 制效率,校對選詞依舊傷眼煩心;而語言能力每況愈下,不會寫字和錯字別字 逐年攀升,更是文化界的老生常談。有人以注音輸入法「正確發音」有限,常 用字得記「輸入音」,不常用字無從輸入,故曰注音「字根最多」,確言之成 理。   倉頡檢字法難學、難用、速度不快,一向是眾矢之的,尤以規則繁多且「 不合習慣」為最。比方「目」不拆「月一」而拆「月凵」,乃為保留字形特微 。「貧」不拆「分.貝」而拆「八.刀.貝」,比照「箬」拆法,乃為規則一貫 。「車」被支解為「十田十」,乃為視覺辨識方便,亦考量人人筆順不一。   而在朱氏系統下,倉頡的「標準字形」嚴格,沒有容錯(一字多拆),標 點符號以內碼輸入(如前引號"「"是YYYAB或ZXCD),蓋因依碼組字 、字集無限,且倉頡即是內碼。可惜換了平台便虎落平陽,主流系統喜舊厭新 ,獨鍾三代,字型不符、編碼錯誤又屢見不鮮,新手求助無門,往往敗興而歸 。   雖未採為內碼,仍有系統使用倉頡。如【中文全字庫】可據以查字;【漢 字構形資料庫】以倉頡和注音為部件外字的唯二輸入法;【漢文庫典】則以倉 頡系統為基,找字、排序皆是倉頡。倉頡處理漢字確實殊勝,字首字身獨一無 二,重碼最少,變化最豐,能拆碼最多漢字,且有統一的排序準則。而就現實 面言,倉頡應用最廣,電子辭典也有她的身影。   少了好的中文系統,許多人也意識缺字不便。中央研究院設計了【漢字構 形資料庫】,此系統以「構字式」表達缺字,再配合程式將構字式轉成對應的 字集,或轉成圖片,如此交換碼便不致混亂。例如「碼」是「石-碼」(原「 橫連」為造字,此以"-"代之),在程式中輸入「石」或「馬」均可尋得此字 。此系統的字集甚至包含甲骨文、金文、小篆文等,因此查找古字、罕用字、 缺字、異體字、簡化字均相當方便,實為文字學者的研究利器。   另一套系統是【易符無限組字編輯器】,採遞迴向量組字,例如「俎」是 「=∥人人且」(以=∥代替原表橫連、直連的符號),程式能合成缺字,可 達真正無限;某程度來說,組字使字集得以縮小,輸入法的選字問題也得以疏 解。此程式極為輕巧,只約2.7 MB,未來潛力無窮。   實際上,倉頡還沒征服缺字。雖用32位元,仍有理論上限;雖能組字千 萬,缺字依舊人工;如有重碼,還得設法避開;若重碼過五……?朱氏系統實 在太鶴立雞群,程式當做藝術,組合語言獨尊,時空效率斤斤計較;專家說程 式太複雜、例外太繁多,業界說商機太小,民間說倉頡太難……結果落得自彈 自唱。   未來中文電腦能否缺字零、編碼一、排序好、搜尋快、輸入易、空間省、 今古字型多,甚或更進階的功能,確實還有待努力。 六、展望   隨著經濟的發展,教育的普及,中國文盲不再九成;隨著科技的發達,電 腦的進步,中文印刷不再龜速。華人笑顏漸開,漢字落後論逐漸銷聲匿跡。   舉世國際英語,以其易學、好用、嚴謹、科學、進步。是耶非耶,不妨論 論。   或曰「漢語太難學,不可能作為世界語。」大陸人今云:「與大多語言相 比,漢語實在簡單無比。英語有十二种時態,有不定詞、分詞、冠詞,有陳述 、祈使、條件、虛擬句法,有复雜無比、迂回難解的獨立子句、名詞形容詞副 詞字句;而法語、德語、西班牙語、俄語、拉丁語,一個單詞的格位、性別、 單复數、人稱、不規則變形還可能多達七八十种。相比之下,漢語沒有語法, 不受規則束縛,真是教人痛快。   「外國人普遍的學習体會是:漢語容易漢字難,通常几個月便能開口說話 ,書面語則不易過关。中國人卻恰恰相反,『英字』易如反掌——不就26個字 母么;『英語』則難于登天——十几年下來還開不了口,要么張嘴就錯。漢語 的『書寫系統』難學,英語的『說話系統』卻耗時更甚。既然跨文化交際首先 以及主要是口頭上的,而漢語恰恰又具有『語易文難』以及『語文分離』的特 征,這不就是一种速成的國際通用語嗎?」   再曰「書面語夠難學吧?」陸人云:「漢語也有拼音,完全可以在几個月 內會讀會寫,但中國人只把它當做漢字的音標、識字的工具、小孩儿的把戲。 漢字的确難學,卻有一勞永逸的神效。通常小學畢業,讀書看報便無問題。任 何新概念、新术語,都能用舊字拼裝組合。   「英語何嘗不想拼裝組合?但是像inflammation of kidney實在長得不象 話,只好借些外語詞根簡化成nephritis,結果拼出的是全新的詞,除了少數 內行,多數人不得其解,搞得老百姓連四面体、頸動脈、滲透作用、裸子植物 、精神分裂症、變阻器、訂單、……這些基本東西都不會講,難怪專家到處都 是。   「英語的辭彙量滾雪球地暴漲,單詞也越來越長,于是有了縮寫詞,而縮 寫詞很快也超出記憶,需要編輯辭典以備查詢。英語單詞已破百万,縮寫詞也 有數千,還分分秒秒、無窮無盡地增加!据專家估計,受過良好教育的人,平 均辭彙量為23000;莎士比亞据說不過30000,這差異對閱讀意味著什么,也就 可想而知。相比之下,常用漢字1000覆蓋率92%,1500字95%,2000字98%, 3000字99%,日常使用的不過約7000字(繁簡差異不大)。漢字确有『致盲』 的可能,拼音文字卻使知識份子淪為『半文盲』,西方人不得不『活到老學到 老』,終生與詞典為伍。有時查了半天,发現orchid不過是個花名,該多么令 人喪氣?」   再曰「漢字容易忘記,比方就有大學教授不會寫打噴嚏的『嚏』。」陸人 云:「那是因為疏于練習,美國人不也常忘記或拼錯receive、bargain?就算 拼出來了,各門各派的念法也不一样。英語发音和拼詞實在太不規則,何不改 革改革?比方ropes改成rowps,robes改成rowbz,roses改成rowziz;或干脆 全部改用國際音標,那不就精确無比?」   再曰「漢字筆劃繁多,使用大大不便。」陸人云:「漢字雖多些書寫之累 ,卻省去大量記憶之苦。一兩個“blepharoplasty”和『眼瞼整容术』,或許 看不出優劣,甚覺前者容易,后者累贅;一旦多至成千上万,便高下立見。考 量到使用便利,語言學者們早就參考過古代俗字草書,再依形聲原則簡化了漢 字。現在的漢字不只具備表意功能,還有形聲的好學和易寫的方便。尤其有了 計算機以后,一筆一划的書寫之累都可不必,但是簡化字讓屏幕呈字不再模糊 不清,印刷墨水也大大簡省。普通話、漢語拼音和簡化字可說是世界上最先進 的語言文字。」   再曰「英語縮寫詞較中文方便許多,你看全世界都在用。」陸人云:「那 是他們不懂。英語縮寫詞信息量比中文低得多,不只難懂難記易搞混,发音也 沒比較短,比方ppm就有至少十种解釋。中共是中國共產党的縮寫,英文的縮 寫卻是CCP;SARS中文只用非典;其他象高干、流腦、乙肝、……都是中文縮 寫詞。要不為了世界通用,CPU完全可以叫央元,DNA完全可以叫主核酸;未來 蛋白質甚至可以造個字『旦白』,互聯网可以寫成『互网』。英語字母二十六 ,中文漢字好几千,誰能用二個字表達最多縮寫?   「你要嫌筆划太多,搞英語那套也未嘗不可,像GB2312就是『國標』的縮 寫,HSK即是『漢語水平考試』,SX是山西,BJ是北京。代號全世界都用,不 是英語的專利,像整數代號Z就來自德語,eg. i.e. etc. Q.E.D都來自拉丁語 ,元素符號Na、K不是英語,物理學的θ、λ、τ、μ也和英語無干。」   再曰「中文不精確、不科學,不能做學問。」陸人云:「這也是胡說八道 。中國小孩的數學水平是有口皆碑,中文九九乘法的背誦速度是世界最快,中 國的火箭照样可以精确升空,中國的原子彈照样可以精确爆炸。中國人在每個 領域都有專家,沒听說哪位因中文「不精确」而搞不好研究,可見重要的是邏 輯思維的訓練,而不是語言文字的革命。英語科技文獻可以全面漢化,只要詞 語統一、條理就行;不過逐句翻譯的文本不貼近中國人的思想習慣,所以我們 的國家教材都是召集各領域的專家從新編寫,學生從小學到大學讀的都是中文 。而台灣、香港人除了喜歡溜几個單詞儿炫耀炫耀,終究是個漢底子,純粹用 英語思考、討論、寫論文的又有多少?   「而且中文的信息效率是世界第一,眼睛一掠就知道意思,英文還要在腦 子里先轉成聲音才能理解;英語发音又臭又長,漢語发音短小輕快,所以用中 文做學問更能提高思考速度。一般英語文長是中文的1.4倍,若是論語之類的 文言文,更要4到5倍,你說這是不是浪費紙張、浪費墨水?」   再曰「電腦處理漢字不方便,你看漢字不能編程!」陸人云:「那要怪計 算機太蠢,操不起高級的漢字。語言文字本來就不是為了機器而发明,日文一 音節一假名,是不是符號太多?諺文(韓文)是音節方塊字,由字母二維組成 ;天城文(印度文字)字母往主音的上下前后附加,是不是太無謂?阿拉伯文 字母有單用、詞首、詞中、詞尾不同寫法,母音通常不標,還要從右往左寫, 計算機處理起來不也麻煩得要死?──這也突顯方塊字的優勢,什么方向都行 ,書脊不用側頭,表格也不用轉書──即便是最線性的拉丁、希腊、西里爾( 俄文)字母,由於單詞長短不一,要首尾對齊或不斷詞換行,也得花一番心思 。   「數學公式麻煩,可是哪本書印成x=(-b+sqrt(pow(b,2)–4*a*c))/(2*a) ?電腦繪圖麻煩,難道要全面手繪?可見是工具進步來適應需求,而不是需求 降低去適應工具。你看二十年前大家還在廢漢,誰曉得現在漢字輸入、儲存和 傳送速度都超越了拼音文字?編程确實還沒全面漢化,但用中文拼音也是完全 可行,只要大伙儿愿意。再過十年、二十年,誰又知道漢字編程不會超英趕美 ?計算機的发展趨勢是從10101100走向copy *.* d:\指令介面,再走向GUI圖 形介面,而漢字不正是千年GUI么?」   有趣的是,早年揚言打倒孔家店,廢棄傳統,全盤西化的人,正操著簡化 字和白到不行的白話文,一股腦兒為漢語漢字和孔老夫子辯護。而驕傲正體中 文,自居文化正統,國學程度好、英語能力強、學術地位高的專家學者,竟不 知身在何處?選修中文的歐美學生與日俱增,三歲的美國小孩被送去補習中文 ,二十一世紀的炎黃子孫何去何從?你我任重道遠。 =======================================================     參考連結 ======================================================= 一、相關文章 【記承天寺夜遊】(圖文系統:文字轉動畫) 劇本:http://open-lit.com/isvply/isvreadme.php?type=6 動畫:http://www.youtube.com/watch?v=exLWtpzM4b4
【字易】(漢字易學) http://tinyurl.com/5hs9ve 【漢字基因字典】(僅為草稿) http://www.cbflabs.com/book/dic/hanzijiyin2/a0.htm 【語言文字論辯集】(中英語文比較系列。簡體) http://www.yywzw.com/nlhe/index.html 二、倉頡系統及朱邦復的理論 【朱邦復工作室】(著作可免費閱讀、下載) http://www.cbflabs.com 【漢文庫典】(中文字、詞、成語典,以倉頡系統為基) http://www.hanculture.com/dic/index.php 三、缺字及相關電腦技術 【缺字處理計畫】(漢字構形資料庫) http://www.sinica.edu.tw/~cdp/service 【剎那搜尋工坊】(易符科技、無限組字編輯器) http://www.ksana.tw/accelon 【中文全字庫】(缺字查詢及交換碼) http://61.60.106.73/web/index.jsp 四、輸入法 【香港倉頡之友】(倉頡輸入法教學) http://www.ied.edu.hk/cj 【馬來倉頡之友】(倉頡輸入法程式) http://www.chinesecj.com 【嘸蝦米輸入法】 http://boshiamy.com 【行列輸入法】 http://www.array.com.tw 【輕鬆輸入法】 http://homepage.mac.com/eshen/ez 【大新倉頡輸入法】 http://www.eztyping.com.tw -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.121.113.172

06/08 11:21, , 1F
經查 嘸蝦米已經沒專利了 剩著作權
06/08 11:21, 1F

06/08 11:23, , 2F
失去專利原因:未繳專利費用 不過也快到期了.. 科科
06/08 11:23, 2F

06/08 20:04, , 3F
閱, 還蠻有趣的文章
06/08 20:04, 3F

06/09 00:52, , 4F
值得深思
06/09 00:52, 4F

06/10 00:46, , 5F
嘸蝦米現在想要東山再起(換第2代經營),不可小看
06/10 00:46, 5F

06/10 00:47, , 6F
大新倉頡連個Vista 64bit版都生不出來,有墮落擺爛趨勢..
06/10 00:47, 6F

06/10 15:38, , 7F
可是他已經沒有專利啦 有心人想做個類似的 也不是不行吧?
06/10 15:38, 7F

06/13 22:13, , 8F
嘸蝦米完蛋囉 十年內會比今天的大易還慘
06/13 22:13, 8F

06/14 03:20, , 9F
VISTA 有未來嗎???
06/14 03:20, 9F

06/15 12:03, , 10F
不明白 Ross0916 為何這樣說 即使有跟嘸蝦米像的輸入法
06/15 12:03, 10F

06/15 12:03, , 11F
嘸蝦米依然不會倒的吧...
06/15 12:03, 11F

06/15 12:05, , 12F
大易沒倒呀...
06/15 12:05, 12F

06/17 13:56, , 13F
我是行易的HENRY 鄭重聲明 因為重點是嘸蝦米"編碼法"的著作權
06/17 13:56, 13F

06/17 13:57, , 14F
所以"專利"部份 沒有再去維護
06/17 13:57, 14F

06/17 13:58, , 15F
如有人勇於嘗試挑戰 我們也一定會積極的處理 和 面對 謝謝 :)
06/17 13:58, 15F

06/17 18:44, , 16F
I scream 與 ice cream 發音相同?麻煩去問問你國中老師
06/17 18:44, 16F

06/18 14:15, , 17F
ai skrim && ais krim 連在一起唸發音沒差,不用問國中老師
06/18 14:15, 17F

06/20 23:03, , 18F
好實用!
06/20 23:03, 18F

05/23 03:54, , 19F
05/23 03:54, 19F
文章代碼(AID): #18IqlWFG (IME)
文章代碼(AID): #18IqlWFG (IME)