[心得] 中文電腦輸入法文化雜譚

看板IME作者danny0838 (道可道非常道)時間17年前 (2008/06/08 11:02)推噓10(10推 0噓 9→)

留言19則, 11人參與討論串1/2 (看更多)

（本文含Unicode字元，PCMan 2007 Combo可正常瀏覽）　　　　中文電腦輸入法文化雜譚一、緣起　　早在清末民初，中國積弱，列強橫行之際，知識分子便總結漢字的缺點是「三多五難」，「三多」是字數多、筆劃多、讀音多；「五難」是難認、難讀、難記、難寫、難用。漢字形體多達數萬，常用也有幾千，不花個八年十年，怎能逐一熟識？漢字形音背離，一字多音、一音多字，若非寒窗苦讀，怎能一一讀出？漢字筆劃繁多，較諸拼音文字，豈非龜兔賽跑？漢字書面語手口不一，文法混亂，邏輯不確，典故繁多，怎能用得輕鬆？無怪知識蔚為特權，文盲橫屍遍野！　　緣英美富強，舉世正途拉丁，拼音成了語言文字進化的必然趨勢；文法、嚴謹與邏輯思辨則理所當然是工業化、現代化的進步之母。　　魯迅嘗謂「漢字不滅，中國必亡」，善哉！包袱沉重如此，何不速速丟棄？胡適則推行「我手寫我口」，蓋時人好用典故、砌疊文句、矯飾辭藻，而思想空泛、言之無物、人人八股，故謂文字當通俗易懂，以闡釋觀點、表達思想為重，然而昨非今是，今天白話文竟然一字一語，講什麼寫什麼。此外，為求相容阿拉伯數字與西文，而有直寫變橫寫，右左變左右；為求「精確」而有新式標點符號，「妳」「它」創造，「們」「被」浮濫；為求表音清楚，利於學習，而有注音符號的發明和國語的統一。　　脫漢之潮日本如是，甚至比中國要早。日文早有假名，拼音易如反掌，無奈日音變化太少，同音字太多，只得勉而留之。然而難學難寫實在茲事體大，於是自1923年始，簡化運動斷斷續續推行，筆劃少好寫，気転発関画；字數少好學，編輯變編集，綜合變總合，理智變理知。至今日本通行1945個「常用漢字」，多次調整的「人名用漢字」目前約1000個。　　國民政府時代，改革呼聲依舊四起，錢玄同先生於1935年抱病起草了《第一批簡體字表》，錄324字，本於社會通行的俗字，述而不作地減省常用字筆劃，如气无万个从。結果公布後反對聲浪四起，戴季陶甚至「為漢字請命」，向蔣介石當場下跪，於是次年暫緩推行。　　國共分裂後，共方拉聲更張，據此於1958年定下漢語拼音。但拉丁化不得躁進，遂以逐步簡化為之。1964年的《簡化字總表》便大刀闊斧，只求簡單，結構美感不要，同音假借、會意自創、普通話類推樣樣皆來，比方面麵干乾、惊颜长开，共2235字，但偏旁類推往往無所適從。1977年又公布《第二次漢字簡化方案（草案）》，即「二簡字」，道首變刀，原泉成元，盯釘成丁，帮邦预予傅付停仃稀希蕭肖歉欠蛋旦。為了這248規定字和605討論字，全國一片混亂，人人文盲。實驗失敗，1986年中共廢除二簡，重發《簡化字總表》規範漢字，至今不渝。而拉丁化之呼聲，早已不知何處。　　至於韓、越放棄了漢字教育，改採拼音。馬、新則採用了大陸標準。　　簡化漢字並非失敗，即便推行繁體字的台灣，手書仍充斥各式俗寫簡寫，只差不能忍受書上螢幕上面目猙獰的、形體僵硬的簡化的印刷的白紙黑字罷了。　　1973年巴西，朱邦復先生就職於某文化公司，一朝同儕來了份翻譯手稿，曰急件速理，走前又說今晚上市，朱只當語言誤會，奉命辦理，聯絡各部。只見全體動員，打字的打字，校對的校對，美工的美工，製版的製版，印刷的印刷，裝訂的裝訂。十二小時後，卡車卡車的印刷書便衝進他的眼廉。　　語言誤會何在？當知鉛字排版廠房極大，生產成本高昂，資源耗費甚鉅，工人訓練費時，尋字困難無比，排字效率低落，如有缺字還得另刻。初排三個月，再校再排，一年上市便該額手稱慶，一日上市絕對天方夜譚，肯定是葡語不熟，聽錯了罷！誰知西方打字機發達，只需幾十字母，便可運指如飛，還要怪打字太快，機器卡住，特製個ＱＷＥＲＴＹ鍵盤拗手。漢字洋文，竟是一日一載之遙，三多五難實在要加五：印刷難難難難難！　　有感於此，他矢志救亡圖存，回到台灣，他認為應由漢字的結構分析做起，再以有限字鍵輸出。仿會意與形聲造字原則，把漢字分成「字首」與「字身」，字首係歸類，字身係描述，猶生物二名法之屬名種名。剪下無數的字典、報章，排列組合，歸納分析，再加以平均分配、編碼，遂成「形意檢字法」，並申請專利。　　工作之際聽聞「電腦」，乃覺電腦資訊必定改造世界，政府行政不能缺，圖書館必備，資料查找不可少，印刷也需要。編碼既成，總得應用，於是他訪遍各家電腦公司與電機系教授，誰知竟異口同聲曰：中文電腦不可行，不妨趁此棄漢，「英語即將成為國際語，英文是世界上最理想的文字，我們要生存、進步，就該全面放棄漢字，大家說英語！」　　求助無門，只得自重，幸因緣際會，朱氏於1979年得接觸電腦，於是自學程式語言，首次將形意檢字法用於輸入，即「形意輸入法」。蔣緯國將軍以其功媲倉頡，重名為「倉頡輸入法」。　　然而朱氏系統未被採用，業界渾然未知中文電腦是何方神聖。他於是自立公司，多面合作，陸續推出【天龍中文電腦】、【中文漢卡】、【中文打字機】，放棄倉頡輸入法專利後又發展【聚珍大字庫】、【聚珍中文整合系統】、【微軟中文視窗系統3.0】等等。　　「中文電腦之父」努力有了成果，90年代中文電腦終於興起，微軟看上了，以強大的手腕獨佔市場，國產軟體與作業系統全面敗陣。二、困境　　中文電腦勃興，可以一日一書，中國人便從此過著幸福快樂的日子？革命尚未成功，同志仍須努力，中文電腦限制仍多，說起來是五個盤根錯節：缺字、編碼、排序、輸入法、空間。　　缺字由來已久，五大碼(Big5)僅收13000多字，於是山沒有峯，絲沒有綫，游錫方方土，酵素作酉每。為因應需求，有組字、有造字，有小字圖，有擴充字集，有新編碼系統。可惜未經統一，好端端的文件換台電腦就面目全非；若要上網搜尋，谷歌雅虎遇上「亂碼」恐怕也愛莫能助。　　萬國碼(Unicode)雖擴充許多，然而至今Windows XP系統的字體，尚不足 23000字。若要加字，還得向外國「電腦專家」申請。明知不夠，怎不未雨綢繆？只怪人性好逸惡勞，每個漢字要一筆一筆地描，編碼要一字一字地編，誰願意為使用率不到0.1%的罕用字勞心費神？再者，早期電腦空間不過數十到數百KB，只好節衣縮食，刖足適屨。　　排序也茲事體大。眾所周知，拼音文字查起字典輕而易舉，中文字典則是繁文縟節，總得一番翻前覆後，終於發現此字未收。科學書籍末尾的名詞索引，恐怕排版的人排得半死，使用的人還找到頭暈，最好去翻原文書。　　電腦排序通常依照內碼，內碼怎麼編排？部首歸類很條理，但有多少人知道命是口部，丘是一部，煩不是頁部，變不是攵部，甚至书是乙部，丽是丶部？筆劃直覺許多，可惜數來麻煩，效率低落，不小心就錯，同筆劃字多如繁星，甚至不同國家數法不同。於是資料夾下檔案一百，英文輕輕鬆鬆地找，中文氣喘吁吁地爬。　　當今電腦內碼仍以筆劃為主，基本堪用，偶爾缺字就造一個，位於何處？須知中文字集有字面之分。「粘」在「鐵」後面，因為粘是罕用字，和常用字的鐵不能一概而論；再如「发」置「籲」後，蓋因簡體字和繁體字字面不同；同理，先來後到不同字面，使用者造字另一字面……難怪無論是中文網頁或國產軟體，總得為檔案立個英文別名。　　最大的漢字集CNS11643收字高達76067，如何輸入？牛「仔」褲、「法」國、「癌」症、「睪」丸、「哈」巴狗、……十年前的標準讀音已強迫作古，十年後不知為何？教育部、微軟、老百姓，誰說的算？而即便語言專家，會唸的恐怕也捉襟見肘，何妨試試國文老師：乂、丌、丼、囟、孖、泵、頞、嬲、醪、蠿、龘、……。　　再如科學新字胜羥羧巰，狀聲字呣欸誒喲，閩字嘸阮佮囝，梵字唵吽誐佉，粵字冇啲睇啱，日字辻畑峠気，複音字浬瓩嗧圕，……漢字方言多、讀音雜，尚有非北京話，何從注音？即便心中有聲，「力」音選字151，倘若字集八萬，不知700字從何找起？　　資訊就是力量。科學可以，請學好英文；電腦可以，請學會英文。三、倉頡　　朱邦復認為，漢字具備六大「基因」：字形、字音、字義、字碼、字序、字辨。前三者耳熟能詳，後三者則是資訊時代的必然需求。　　他將漢字分析出600字首和9000字身，均分至各個鍵位，歸納出如下的「倉頡字母」：日月金木水火土，斜點交叉縱橫鉤（竹戈十大中一弓），人心手口，側並仰紐方卜（尸廿山女田卜）。這些字母可和英文字母一一對應：ＡＢＣＤＥＦＧ，ＨＩＪＫＬＭＮ，ＯＰＱＲ，ＳＴＵＶＷＹ（Ｘ［難］和Ｚ留作特殊用途），正是中文的序號。　　將文字拆成編碼以供排序、檢索，即是「倉頡檢字法」，應用之一便是電腦輸入，即「倉頡輸入法」。其規則首先是將字碼變形，衍生出「輔助字形」，作為拆字的基本單位（字根）。如水→氵，戈（點）→丶，廿→艹，田（方）→囗。倉頡輸入法的字根共有一百多。　　第二，判斷漢字結構，不能切割者為「整體字」；能切割者，取其最左、最上、或最外者定為「字首」，其餘定為「字身」。如「好」可切成「女」、「子」，「女」是字首，剩下的「子」是字身。字身若可再切，同理可切成「次字首」與「次字身」。　　第三，依左而右、上而下、外而內的視覺順序取碼。整體字取４碼（不足則全取，超過則１２３尾。餘類推）。其餘各型為：字首２、字身３；字首２，次字首２、次字身１；字首２，次字首１、次字身２。　　如此即可見字拆碼，如「未」拆為「十木」；「沖」拆為「水.中」；「掛」拆為「手.土土.卜」；「國」拆為「田.戈.口一」。以之為內碼，便可有效地排序和編碼漢字。　　麻煩的是異字重碼，必須極力避開。倉頡輸入法依推出時間分一代至六代，微軟內建的是三代的修改，現今推廣的是五代，最新的六代重名為「蒼頡檢字法」，目前尚未公開，僅留供合作單位使用。五代的重碼藉由前加「Ｘ」避開，若超過五碼則去尾，如「態」編碼為「ＩＰＰ」，「庇」為「ＸＩＰＰ」，「忒」為「ＸＸＩＰＰ」。六代則後加１～５避開，如「ＩＰＰ」、「ＩＰＰ１」、「ＩＰＰ２」。倉頡內碼是一碼５位元；一字為５碼加７個識別位元，共３２位元；亦有壓縮成１６位元，以增進傳輸效率者。　　朱氏系統內含【向量字形產生器】，可處理輸入的倉頡碼，並據之組成字形。由於倉頡碼有字首、字身之分，該系統將字首與字身的繪圖指令分別儲存，再處理少數例外，如此便毋須一字一圖，可大幅減省空間、增進效率。此外將無字空間加以規則處理，便能組出無數新字。　　朱氏於1995年更新的漢字字形產生器，僅佔160 KB，可產生已存在字６萬以上，並可組成新字近1000萬，如「阝川」、「鳥賤」。速度也相當驚人，在 450 MHz的電腦上，每秒可產生及顯示16x16之字型46000個。可產生的字體尚有明、黑、圓、宋、楷、隸等，大小變化任意，筆劃粗細任意，筆劃填充任意。反觀當今系統字集，新細明體合細明體，不到23000字，即佔用8.6 MB；標楷體字數相同，佔5.1 MB；即便1500字的英文字體Times New Roman，也要 400 KB。朱氏系統若廣泛採用，大概一切電腦、手機、醫學儀器，以至各式電子產品，均無缺字之虞。　　將組字過程反轉，即為辨識。先把點陣圖轉為向量，再辨識其中的倉頡字形，即得倉頡碼，也就是內碼。如此點陣辨識或向量手寫辨識皆可實現。　　至此，字形、字碼、字序、字辨問題一應料理。而前述中文電腦的五大困境：缺字、編碼、排序、輸入法、空間，也悉數解決。這是1995年以前的事。四、思維　　朱邦復認為，漢字一字一音，最適合語音辨識，因此正積極發展。倉頡系統採取形聲字的「本音」，如詣取旨音、曇取雲音，音變則另建資料庫。而英文連斷字都有困難，例如「I Scream」和「Ice cream」發音相同。　　但中文的與眾不同在於「字義」。人人皆知block障，pre前，dog狗，何以如此？古人如此。何以古人如此？……中文卻本質意象，個個有憑有據。江者，水之工也，是為大川；河者，水可通也，是為暢流水道。滑者，水流骨（硬物）上，平順無摩擦也。思者，田心，耕耘於心，想也。信者，人之言，古之「消息」「函件」，言者須「無誤」，聽者須「不疑」也。　　或云某某純粹形聲，某某實屬訛傳，某某穿鑿附會。然而聲音思維豈風馬牛不相及？古人為文可如此客觀考據？學者今云說文「武」、「信」錯解，改是不改？求千秋萬世客觀事實乎？通古今文人心之所嚮乎？　　代表行走的「彳」和代表停止的「止」合成「辵」，表示忽走忽停。「車」和「辵」合成「連」，「道上之車，一輛接著一輛」，表示「相互接續」，又引申定義為「陸軍編制」。連再組合成詞，所以「連任」表示「接續地任」，「連忙」表示「接續地忙」。「素」是糸（絲）上有光澤，表示本色（白色）的絲，所以代表本質、白色。如此「元素」、「素來」、「素色」、「抗生素」、「茹素」、……皆可推知。而獨體的象形文彳止水糸，則不妨翻翻古籍，以明瞭起源為何。　　梵語拉丁，變形數倍於英語；蒙滿粵閩，語法詞序也迥異北京。古時民族眾多，方言複雜，一字多義和各式倒裝由此而生。書面語能被「約定俗成」，被熟記、流傳、共用，必須符合各家主觀感受。　　除外來語、部分假借字、純形聲字以外，常識、感覺與聯想緊繫了中文，從獨文到字，從字到詞，從詞到句，從句到章，從章到書，從書到人，到千千萬萬的成語、典故。錫銀銅鉛鐵、江河滑湯油並非孤立，星笙性甦產、晲倪鬩霓齯互相關係，汽車、卡車、火車、公車、貨車分類井然，車輪、車架、車軌、車站、車主概念清晰。文而字，字而詞，始於「零件」，逐次組合，貫之以一，死記何須？如此不僅能靈活運用、精煉文章，更能輕鬆學習，「學中文只消三個月。」這便是朱氏《字易》與《基因字典》。　　中文句法依循因果，自然多，定義少，宛如紙上動畫，與電影「蒙太奇」手法如出一轍。第一幕男女約會，第二幕她打他一掌，第三幕他獨自啜泣，只須畫面幕幕，便可想而知。朱邦復設計了一套【圖文系統】，只須輸入中文，便可合成動畫，當然相關的模型、名物還得事先製成，較著名的成品是【記承天寺夜遊】（見文末參考連結）。他認為此套系統可大大減低成本，揚言「傾銷一億套，一套１美金，連盜版都不怕！」網路動畫的傳輸效率有如鴨步鵝行，此系統若舉世採用，片子１Ｇ成了文字十Ｋ，時空效率豈止提升百千？　　看一個字，便浮現無數聯想期待；看一個句，和前文產生綿密交織；看一個段，和已知常識相互印證。前後貫通、融為一體，言外之意豐富，漢字滋乳人類常識，章句躍著縷縷思維，對此分析、內觀，便知人如何想、如何悟。　　析出蘊藏的章法、思路，套用於電腦，便可理解人類語言。今日「人工智慧」仍為西方主流，文法嚴謹，運算線性，速度有限，常識缺乏，應用範圍侷限。人工智慧瓶頸仍多，如何建置數之不盡的常識、知識庫？如何分析？如何運算？如何高速運算？　　朱氏系統以易經的二分原則，將漢字逐層分類、分析，得出了「概念結構」。以「逃」字為例，先分主觀、客觀，得１（主觀）。主觀分成認識、行為，得１（行為）。行為分生存、社會，得０（生存）。生存分官能、體能、動作、生活，得０１（體能）。體能再分八類，得０１１（追動）。前述的主觀、客觀、認識、行為等等，自然是由眾多漢字歸結而成。１１００１０１１即是「逃」的分類字元，再加上１個區別字元和２個定義字元，如此區區３２位元，便能包羅萬象，以簡御繁，空間極省，速度極快。　　「逃」參照「辵」、「兆」，便衍出無數聯想，在高速系統下，一面向後取文，一面交織運算，０１便微妙微肖地擬人思考。「思考」結果可作多種輸出，若符合人類所想，彷彿便有心智能力，即是成功的「人工智能」（不等於「人工智慧」）。輸出方式之一便是動畫，亦即【圖文系統】，假以時日電腦或可和人類閒話家常。另外，理解也是語音輸入或語音操作的必備條件，機器若不理解，何從正確選字、無誤執行？　　以往認為知識必須精確、邏輯、嚴謹、條列、切割，才適合學習傳播；然而要靈活運用，記憶仍不可或缺。有些人開始同意，比起綱舉目張的科學，村婦講的故事更印象深刻。心理學研究指出，漢字較諸拼音，大腦活化部位更廣，有「開發右腦」和「形象思維」之功。以往認為形象思維原始、落後，遠不如邏輯、線性思維；近來卻認為形象思維創造力更大，處理複雜事物的能力更強，著名的愛因斯坦即是這樣的科學家。數學家解題、推公式，多半先靠感覺，嚴密的推導往往只是說服你我的說辭。　　何為思維的本質？何為智慧？如何能深專業之究竟，博天地之大道？五、各家　　繼倉頡以後，注音和各種輸入法紛紛出籠。放棄專利而內建於主流系統的有【大易(1988)】、【行列(1992)】。注音的人工智慧版如【新注音】、【新酷音】、【自然】；傳統倉頡的改良版如【自由倉頡】、【快速倉頡】、【易頡】、【亂倉打鳥】、【大新倉頡(2001)】；其他原創如【輕鬆(1993)】、【嘸蝦米(1989)】、【華象(1987)】、……不勝枚舉。中文輸入法已超過百種，著實百家爭鳴。　　嘸蝦米輸入法以英文為字碼，形音義對映字根，例如哈是ＯＡＯ，粉是ＭＢＤ（米八刀），轟是ＣＣＣ（Ｃ=Car＝車）；拆碼只須１２３尾，毋須字首字身。由於可練習英打，加上字根有趣，許多人為之著迷。她有ワサビ (WaSaBi)，也能红卫兵；可以ㄅㄆㄇ，也能㊣◆★；一碼對八七，二碼寸不夕，簡根俞並易、即是曼周幸。由於商利誘因，教師、打字選手一一入夥，比賽成績優異，職校相繼選用。　　行列也釋出專利，系統內含。她用科學的鍵盤定位，使盲打得以速成。首先定義十種基本筆形：１一，２└，３〡，４十，５┐，６丶，７ㄇ，８八＼，９／，０口。其次定位字根，例如「大」首筆是橫，對應1行（QAZ行）；末筆是捺，對應下列（1-4為上，0或無為中，5-9為下），便得鍵位「Z」。接著依筆順拆字取碼，例如「景」→「日〦口小」→[01 61 0- 38]→[0^6^0-3v] （ＰＹ；Ｃ）。行列編碼１２３尾，符號表[2^1]~[2^0]，簡碼一級[1^2]、二級[7^3v1]、……，其速度曾達215字/分，超過嘸蝦米的209字/分。不知是推廣不力或刻板印象，行列目前仍是小眾。　　免費的輕鬆輸入法所求不同，她只要易學、輕鬆，不求盲打、神速。輕鬆字根只有７５，取碼只要頭尾，「等」是「竹寸」，「想」為「木心」，簡單易學。然而選字太多，於是掛上超大詞庫，「總統」四鍵，「原子筆」三鍵，「柳暗花明」四鍵，「經濟建設委員會」四鍵。其實專業領域亦有詞庫輸入，比方中醫健保系統，輸入「ㄙㄨㄊ」就能輸出「四物湯」。　　各家紛紛主張「易學」、「快速」、「多功能」，免不了還要暗示長江後浪推前浪。大新倉頡又為繼起新秀，她簡化了傳統倉頡的拆碼規則，並把最常用的字設計成最少的碼數，擺在最好按的鍵位，又輔以助憶口訣，如一碼字：「國民與大會，不可以有不法的行為；這對成年人，在家業中，是大來發的一年。」商人再度獲勝，大新倉頡成功地易學神速，創下記錄227字/分。大新育了更多師資，養了更多打字快手，設計了更豐富的彩色書籍、互動軟體和教學影片；加上符號鍵盤、打繁出簡、注音查詢等強大功能；還有網上試用版無限免費安裝、購買者隨處可用等商業手法，於是小學、國中、高中職紛紛跳槽，甚至推廣到倉頡已盛的港澳地區。　　注音、拼音依舊永垂不朽，國小就會和我手寫我口畢竟誘人。然而中文同音字屢見不鮮，選字甚為不便，各式自動選詞相應出爐。如今無法盲打依舊牽制效率，校對選詞依舊傷眼煩心；而語言能力每況愈下，不會寫字和錯字別字逐年攀升，更是文化界的老生常談。有人以注音輸入法「正確發音」有限，常用字得記「輸入音」，不常用字無從輸入，故曰注音「字根最多」，確言之成理。　　倉頡檢字法難學、難用、速度不快，一向是眾矢之的，尤以規則繁多且「不合習慣」為最。比方「目」不拆「月一」而拆「月凵」，乃為保留字形特微。「貧」不拆「分.貝」而拆「八.刀.貝」，比照「箬」拆法，乃為規則一貫。「車」被支解為「十田十」，乃為視覺辨識方便，亦考量人人筆順不一。　　而在朱氏系統下，倉頡的「標準字形」嚴格，沒有容錯（一字多拆），標點符號以內碼輸入（如前引號"「"是ＹＹＹＡＢ或ＺＸＣＤ），蓋因依碼組字、字集無限，且倉頡即是內碼。可惜換了平台便虎落平陽，主流系統喜舊厭新，獨鍾三代，字型不符、編碼錯誤又屢見不鮮，新手求助無門，往往敗興而歸。　　雖未採為內碼，仍有系統使用倉頡。如【中文全字庫】可據以查字；【漢字構形資料庫】以倉頡和注音為部件外字的唯二輸入法；【漢文庫典】則以倉頡系統為基，找字、排序皆是倉頡。倉頡處理漢字確實殊勝，字首字身獨一無二，重碼最少，變化最豐，能拆碼最多漢字，且有統一的排序準則。而就現實面言，倉頡應用最廣，電子辭典也有她的身影。　　少了好的中文系統，許多人也意識缺字不便。中央研究院設計了【漢字構形資料庫】，此系統以「構字式」表達缺字，再配合程式將構字式轉成對應的字集，或轉成圖片，如此交換碼便不致混亂。例如「碼」是「石－碼」（原「橫連」為造字，此以"－"代之），在程式中輸入「石」或「馬」均可尋得此字。此系統的字集甚至包含甲骨文、金文、小篆文等，因此查找古字、罕用字、缺字、異體字、簡化字均相當方便，實為文字學者的研究利器。　　另一套系統是【易符無限組字編輯器】，採遞迴向量組字，例如「俎」是「＝∥人人且」（以＝∥代替原表橫連、直連的符號），程式能合成缺字，可達真正無限；某程度來說，組字使字集得以縮小，輸入法的選字問題也得以疏解。此程式極為輕巧，只約2.7 MB，未來潛力無窮。　　實際上，倉頡還沒征服缺字。雖用３２位元，仍有理論上限；雖能組字千萬，缺字依舊人工；如有重碼，還得設法避開；若重碼過五……？朱氏系統實在太鶴立雞群，程式當做藝術，組合語言獨尊，時空效率斤斤計較；專家說程式太複雜、例外太繁多，業界說商機太小，民間說倉頡太難……結果落得自彈自唱。　　未來中文電腦能否缺字零、編碼一、排序好、搜尋快、輸入易、空間省、今古字型多，甚或更進階的功能，確實還有待努力。六、展望　　隨著經濟的發展，教育的普及，中國文盲不再九成；隨著科技的發達，電腦的進步，中文印刷不再龜速。華人笑顏漸開，漢字落後論逐漸銷聲匿跡。　　舉世國際英語，以其易學、好用、嚴謹、科學、進步。是耶非耶，不妨論論。　　或曰「漢語太難學，不可能作為世界語。」大陸人今云：「與大多語言相比，漢語實在簡單無比。英語有十二种時態，有不定詞、分詞、冠詞，有陳述、祈使、條件、虛擬句法，有复雜無比、迂回難解的獨立子句、名詞形容詞副詞字句；而法語、德語、西班牙語、俄語、拉丁語，一個單詞的格位、性別、單复數、人稱、不規則變形還可能多達七八十种。相比之下，漢語沒有語法，不受規則束縛，真是教人痛快。　　「外國人普遍的學習体會是：漢語容易漢字難，通常几個月便能開口說話，書面語則不易過关。中國人卻恰恰相反，『英字』易如反掌——不就26個字母么；『英語』則難于登天——十几年下來還開不了口，要么張嘴就錯。漢語的『書寫系統』難學，英語的『說話系統』卻耗時更甚。既然跨文化交際首先以及主要是口頭上的，而漢語恰恰又具有『語易文難』以及『語文分離』的特征，這不就是一种速成的國際通用語嗎？」　　再曰「書面語夠難學吧？」陸人云：「漢語也有拼音，完全可以在几個月內會讀會寫，但中國人只把它當做漢字的音標、識字的工具、小孩儿的把戲。漢字的确難學，卻有一勞永逸的神效。通常小學畢業，讀書看報便無問題。任何新概念、新术語，都能用舊字拼裝組合。　　「英語何嘗不想拼裝組合？但是像inflammation of kidney實在長得不象話，只好借些外語詞根簡化成nephritis，結果拼出的是全新的詞，除了少數內行，多數人不得其解，搞得老百姓連四面体、頸動脈、滲透作用、裸子植物、精神分裂症、變阻器、訂單、……這些基本東西都不會講，難怪專家到處都是。　　「英語的辭彙量滾雪球地暴漲，單詞也越來越長，于是有了縮寫詞，而縮寫詞很快也超出記憶，需要編輯辭典以備查詢。英語單詞已破百万，縮寫詞也有數千，還分分秒秒、無窮無盡地增加！据專家估計，受過良好教育的人，平均辭彙量為23000；莎士比亞据說不過30000，這差異對閱讀意味著什么，也就可想而知。相比之下，常用漢字1000覆蓋率92%，1500字95%，2000字98%， 3000字99%，日常使用的不過約7000字（繁簡差異不大）。漢字确有『致盲』的可能，拼音文字卻使知識份子淪為『半文盲』，西方人不得不『活到老學到老』，終生與詞典為伍。有時查了半天，发現orchid不過是個花名，該多么令人喪氣？」　　再曰「漢字容易忘記，比方就有大學教授不會寫打噴嚏的『嚏』。」陸人云：「那是因為疏于練習，美國人不也常忘記或拼錯receive、bargain？就算拼出來了，各門各派的念法也不一样。英語发音和拼詞實在太不規則，何不改革改革？比方ropes改成rowps，robes改成rowbz，roses改成rowziz；或干脆全部改用國際音標，那不就精确無比？」　　再曰「漢字筆劃繁多，使用大大不便。」陸人云：「漢字雖多些書寫之累，卻省去大量記憶之苦。一兩個“blepharoplasty”和『眼瞼整容术』，或許看不出優劣，甚覺前者容易，后者累贅；一旦多至成千上万，便高下立見。考量到使用便利，語言學者們早就參考過古代俗字草書，再依形聲原則簡化了漢字。現在的漢字不只具備表意功能，還有形聲的好學和易寫的方便。尤其有了計算機以后，一筆一划的書寫之累都可不必，但是簡化字讓屏幕呈字不再模糊不清，印刷墨水也大大簡省。普通話、漢語拼音和簡化字可說是世界上最先進的語言文字。」　　再曰「英語縮寫詞較中文方便許多，你看全世界都在用。」陸人云：「那是他們不懂。英語縮寫詞信息量比中文低得多，不只難懂難記易搞混，发音也沒比較短，比方ppm就有至少十种解釋。中共是中國共產党的縮寫，英文的縮寫卻是CCP；SARS中文只用非典；其他象高干、流腦、乙肝、……都是中文縮寫詞。要不為了世界通用，CPU完全可以叫央元，DNA完全可以叫主核酸；未來蛋白質甚至可以造個字『旦白』，互聯网可以寫成『互网』。英語字母二十六，中文漢字好几千，誰能用二個字表達最多縮寫？　　「你要嫌筆划太多，搞英語那套也未嘗不可，像GB2312就是『國標』的縮寫，HSK即是『漢語水平考試』，SX是山西，BJ是北京。代號全世界都用，不是英語的專利，像整數代號Z就來自德語，eg. i.e. etc. Q.E.D都來自拉丁語，元素符號Na、K不是英語，物理學的θ、λ、τ、μ也和英語無干。」　　再曰「中文不精確、不科學，不能做學問。」陸人云：「這也是胡說八道。中國小孩的數學水平是有口皆碑，中文九九乘法的背誦速度是世界最快，中國的火箭照样可以精确升空，中國的原子彈照样可以精确爆炸。中國人在每個領域都有專家，沒听說哪位因中文「不精确」而搞不好研究，可見重要的是邏輯思維的訓練，而不是語言文字的革命。英語科技文獻可以全面漢化，只要詞語統一、條理就行；不過逐句翻譯的文本不貼近中國人的思想習慣，所以我們的國家教材都是召集各領域的專家從新編寫，學生從小學到大學讀的都是中文。而台灣、香港人除了喜歡溜几個單詞儿炫耀炫耀，終究是個漢底子，純粹用英語思考、討論、寫論文的又有多少？　　「而且中文的信息效率是世界第一，眼睛一掠就知道意思，英文還要在腦子里先轉成聲音才能理解；英語发音又臭又長，漢語发音短小輕快，所以用中文做學問更能提高思考速度。一般英語文長是中文的1.4倍，若是論語之類的文言文，更要4到5倍，你說這是不是浪費紙張、浪費墨水？」　　再曰「電腦處理漢字不方便，你看漢字不能編程！」陸人云：「那要怪計算機太蠢，操不起高級的漢字。語言文字本來就不是為了機器而发明，日文一音節一假名，是不是符號太多？諺文（韓文）是音節方塊字，由字母二維組成；天城文（印度文字）字母往主音的上下前后附加，是不是太無謂？阿拉伯文字母有單用、詞首、詞中、詞尾不同寫法，母音通常不標，還要從右往左寫，計算機處理起來不也麻煩得要死？──這也突顯方塊字的優勢，什么方向都行，書脊不用側頭，表格也不用轉書──即便是最線性的拉丁、希腊、西里爾（俄文）字母，由於單詞長短不一，要首尾對齊或不斷詞換行，也得花一番心思。　　「數學公式麻煩，可是哪本書印成x=(-b+sqrt(pow(b,2)–4*a*c))/(2*a) ？電腦繪圖麻煩，難道要全面手繪？可見是工具進步來適應需求，而不是需求降低去適應工具。你看二十年前大家還在廢漢，誰曉得現在漢字輸入、儲存和傳送速度都超越了拼音文字？編程确實還沒全面漢化，但用中文拼音也是完全可行，只要大伙儿愿意。再過十年、二十年，誰又知道漢字編程不會超英趕美？計算機的发展趨勢是從10101100走向copy *.* d:\指令介面，再走向GUI圖形介面，而漢字不正是千年GUI么？」　　有趣的是，早年揚言打倒孔家店，廢棄傳統，全盤西化的人，正操著簡化字和白到不行的白話文，一股腦兒為漢語漢字和孔老夫子辯護。而驕傲正體中文，自居文化正統，國學程度好、英語能力強、學術地位高的專家學者，竟不知身在何處？選修中文的歐美學生與日俱增，三歲的美國小孩被送去補習中文，二十一世紀的炎黃子孫何去何從？你我任重道遠。 ======================================================= 　　　　參考連結 ======================================================= 一、相關文章【記承天寺夜遊】（圖文系統：文字轉動畫）劇本：http://open-lit.com/isvply/isvreadme.php?type=6 動畫：http://www.youtube.com/watch?v=exLWtpzM4b4

【字易】（漢字易學） http://tinyurl.com/5hs9ve 【漢字基因字典】（僅為草稿） http://www.cbflabs.com/book/dic/hanzijiyin2/a0.htm 【語言文字論辯集】（中英語文比較系列。簡體） http://www.yywzw.com/nlhe/index.html 二、倉頡系統及朱邦復的理論【朱邦復工作室】（著作可免費閱讀、下載） http://www.cbflabs.com 【漢文庫典】（中文字、詞、成語典，以倉頡系統為基） http://www.hanculture.com/dic/index.php 三、缺字及相關電腦技術【缺字處理計畫】（漢字構形資料庫） http://www.sinica.edu.tw/~cdp/service 【剎那搜尋工坊】（易符科技、無限組字編輯器） http://www.ksana.tw/accelon 【中文全字庫】（缺字查詢及交換碼） http://61.60.106.73/web/index.jsp 四、輸入法【香港倉頡之友】（倉頡輸入法教學） http://www.ied.edu.hk/cj 【馬來倉頡之友】（倉頡輸入法程式） http://www.chinesecj.com 【嘸蝦米輸入法】 http://boshiamy.com 【行列輸入法】 http://www.array.com.tw 【輕鬆輸入法】 http://homepage.mac.com/eshen/ez 【大新倉頡輸入法】 http://www.eztyping.com.tw -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.121.113.172

→

ileadu

06/08 11:21, , 1^F

06/08 11:21, 1^F

→

ileadu

06/08 11:23, , 2^F

06/08 11:23, 2^F

→

mone741120

06/08 20:04, , 3^F

06/08 20:04, 3^F