利用維基百科實現高質量中文簡繁轉換
http://tinyurl.com/n7vnhw
自從有了簡體中文以來﹐中文的簡繁轉換便成了一項新興職業﹐特別是近年來﹐兩岸三地的交流癒發頻繁﹐這種需求更為旺盛。當然﹐你可以付錢選擇專業的公司來幫您完成文件、文章等等的職業級簡繁轉換﹔然而﹐您也可以選擇中文維基百科為你奉獻的一頓簡繁轉換的免費午餐。
中文簡繁轉換的難題
我們都知道﹐中文簡繁之間的區別不僅僅是字音字形上的不同﹐地域和社會形態的差異也形成了表達習慣上的較大差異。比如說﹐大陸管panda叫“熊貓 ”﹐台灣香港叫“貓熊”﹔大陸管database叫“數據庫”﹐台灣香港叫“資料庫”﹔大陸管籃球飛人叫“邁克爾.喬丹”,台灣香港叫“米高.佐敦”…… 所以﹐從某種意義上說﹐中文的簡繁轉換其實更像是一個翻譯過程。
許多的應用程序和網站都提供中文簡繁轉換﹐但99.9%都是基於漢字簡繁編碼的一一對應關系做基本語言單位── 字級別上的轉換。包括 Google Translate 在內都是基於這種轉換﹐那麼這種轉換的結果是什麼呢﹐我們來看看下面兩句話的簡繁轉換﹕
原文-----------------------------轉換方向--------------------譯文
他用調制解調器發出一個回車字符。 簡->繁 他用調製解調器發出一個回車字符。
碧咸在寮國見到了布希。 繁->簡 碧咸在寮國見到了布希。
這個轉換結果﹐第一句沒有一個台灣香港居民能看懂﹐第二句沒有一個大陸居民知其所雲。這無外乎又是一出把“How old are you?”翻譯成“怎麼老是你﹖”﹔把“給你點顏色看看﹗”翻譯成“Give you a little color to see see!”的讓人貽笑大方鬧劇。正確的結果﹐第一句的繁體應該是“他用數據機發出一個歸位字元”﹔第二句的簡體應該是“貝克漢姆在老撾見到了布什”。
以上的例子﹐足以讓讀者您了解到了中文簡繁轉換的難度。而更為棘手的是﹐大陸在簡化漢字的過程中﹐把許多在繁體中文中字形、字音、字義完全不同的多個漢字簡化到一個漢字下面。比如﹕
“頭髮”和“發財”中的“髮”和“發”全都簡化為“發”﹔
“鬱鬱寡歡”和“鬱鬱青青”中的“鬱”和“鬱”全部簡化為“鬱”
等等。所以 簡->繁 的轉換更為復雜﹐轉換器必須識別這種一對多的對應關系。否則﹐將“鬱鬱寡歡”轉換為“鬱鬱寡歡”“是相當可笑的錯誤﹐因為“鬱”在古漢語中是”美好、豐盛、文采飛揚“之意﹐漢語中的確沒有”鬱鬱寡歡“這種自相矛盾的成語。
如果您對轉換結果要求並不苛刻﹐可以嘗試使用 Microsoft Word ﹐其簡繁轉換的品質相對較好﹐作了很多表達習慣上的修訂﹐但是轉換結果中仍可以找到大量未修訂﹐不符合目標語表達習慣的地方﹐特別是各種人名、地名。具體 的情況﹐讀者可以自行在 Microsoft Word 中考証。
利用中文維基百科的簡繁轉換系統
筆者在中文維基百科大陸解封後﹐也成了一名維基貢獻貢獻者﹐用簡體中文撰寫條目﹐同時也發現了維基強大的簡繁轉換系統。例如﹐我曾在 Qt 條目中寫道﹕
經過多年發展﹐Qt不但擁有了完善的C++圖形庫﹐而且近年來的版本逐漸集成了數據庫、OpenGL庫、多媒體庫 (Phonon)、網絡庫、腳本庫、XML庫、WebKit庫等等﹐其內核庫也加入了進程間通信、多線程等模塊﹐極大的豐富了Qt開發大規模復雜跨平台應 用程序的能力﹐真正意義上實現了其研發宗旨“Code Less; Create More; Deploy Anywhere.”。
當我點擊該條目右上角的“台灣正體”後﹐出現的轉換結果為﹕
經過多年發展﹐Qt不但擁有了完善的C++圖形函式庫﹐而且近年來的版本逐漸整合了資料庫、OpenGL函式庫、多媒體函式庫(Phonon)、網路函式庫、指令碼函式庫、XML函式庫、WebKit函式庫等等﹐其核心函式庫也加入了行程間通訊、多緒等模組﹐極大的豐富了 Qt開發大規模複雜跨平台應用程式的能力﹐真正意義上實作了其研發宗旨「Code Less; Create More; Deploy Anywhere.」。
轉換結果很是完美﹐一番查找才知道這是維基的繁簡處理系統的功勞﹐成千上萬的維基人每天都在向這個系統提交或修訂最新的、最完整的簡繁轉換詞語表。這足以保証維基百科的簡繁轉換系統作為最精確的機器轉換系統﹐能夠隨時跟上兩岸三地的漢語表達習慣最新的變化。
但是﹐這個系統雖好確不能濫用﹐維基百科有嚴格的規定﹐嚴禁在條目中放置與該條目無關的內容。那還怎麼轉換我們想要的內容呢﹖難道隻能望洋興嘆﹖
筆者發現還是有空子可鑽的。維基百科為每個用戶都提供一個用戶頁面﹐其地址是http://zh.wikipedia.org/wiki/User:你的注冊名。想利用該頁面進行簡繁轉換﹐你需要做的﹐首先就是注冊成為中文維基百科用戶﹐接下來進入你的用戶頁面的編輯模式﹐寫入你想轉換的內容﹐並提交編輯。接下來就看到頁面上方那一排轉換按鈕了吧﹕
http://news.newhua.com/Files/Remoteupfile/2009-7/13/111.png

現在你就可以好好享受這高質量的簡繁轉換了﹐不僅僅是兩岸三地﹐連馬來西亞和新加坡也包括在內了。
最後﹐筆者還要鄭重提醒您的注意﹐維基百科的用戶頁也有嚴格的規定。所以強烈建議您在完成簡繁轉換後﹐立即在您的用戶頁移除這些內容。
--
“父王最愛菊花了”
……
“父王你真壞”
──《滿城盡戴黃金甲》
國共之優劣﹐猶國足與女足之優劣耳
建議勞動與社會保障部、民政部、商務部、財政部”四部合為一部,簡稱為“勞民商財部”
※ 來源:‧水木社區 newsmth.net‧[FROM: 123.145.203.*]
推
07/28 21:09, , 1F
07/28 21:09, 1F
推
07/28 21:10, , 2F
07/28 21:10, 2F
推
07/28 21:28, , 3F
07/28 21:28, 3F
→
07/28 21:28, , 4F
07/28 21:28, 4F
推
07/28 21:29, , 5F
07/28 21:29, 5F
推
07/28 21:32, , 6F
07/28 21:32, 6F
→
07/28 21:35, , 7F
07/28 21:35, 7F
推
07/28 23:21, , 8F
07/28 23:21, 8F
推
07/29 07:31, , 9F
07/29 07:31, 9F
→
07/29 07:34, , 10F
07/29 07:34, 10F
推
07/29 08:33, , 11F
07/29 08:33, 11F
推
07/29 10:13, , 12F
07/29 10:13, 12F
→
07/29 10:14, , 13F
07/29 10:14, 13F
→
07/29 10:16, , 14F
07/29 10:16, 14F
推
07/29 13:42, , 15F
07/29 13:42, 15F
推
07/29 22:14, , 16F
07/29 22:14, 16F