利用維基百科實現高質量中文簡繁轉換

看板Cross_Life作者時間16年前 (2009/07/28 21:05), 編輯推噓11(1105)
留言16則, 10人參與, 最新討論串1/1
http://tinyurl.com/n7vnhw   自從有了簡體中文以來﹐中文的簡繁轉換便成了一項新興職業﹐特別是近年來﹐兩岸三地的交流癒發頻繁﹐這種需求更為旺盛。當然﹐你可以付錢選擇專業的公司來幫您完成文件、文章等等的職業級簡繁轉換﹔然而﹐您也可以選擇中文維基百科為你奉獻的一頓簡繁轉換的免費午餐。   中文簡繁轉換的難題   我們都知道﹐中文簡繁之間的區別不僅僅是字音字形上的不同﹐地域和社會形態的差異也形成了表達習慣上的較大差異。比如說﹐大陸管panda叫“熊貓 ”﹐台灣香港叫“貓熊”﹔大陸管database叫“數據庫”﹐台灣香港叫“資料庫”﹔大陸管籃球飛人叫“邁克爾.喬丹”,台灣香港叫“米高.佐敦”…… 所以﹐從某種意義上說﹐中文的簡繁轉換其實更像是一個翻譯過程。   許多的應用程序和網站都提供中文簡繁轉換﹐但99.9%都是基於漢字簡繁編碼的一一對應關系做基本語言單位── 字級別上的轉換。包括 Google Translate 在內都是基於這種轉換﹐那麼這種轉換的結果是什麼呢﹐我們來看看下面兩句話的簡繁轉換﹕ 原文-----------------------------轉換方向--------------------譯文 他用調制解調器發出一個回車字符。 簡->繁 他用調製解調器發出一個回車字符。 碧咸在寮國見到了布希。 繁->簡 碧咸在寮國見到了布希。   這個轉換結果﹐第一句沒有一個台灣香港居民能看懂﹐第二句沒有一個大陸居民知其所雲。這無外乎又是一出把“How old are you?”翻譯成“怎麼老是你﹖”﹔把“給你點顏色看看﹗”翻譯成“Give you a little color to see see!”的讓人貽笑大方鬧劇。正確的結果﹐第一句的繁體應該是“他用數據機發出一個歸位字元”﹔第二句的簡體應該是“貝克漢姆在老撾見到了布什”。   以上的例子﹐足以讓讀者您了解到了中文簡繁轉換的難度。而更為棘手的是﹐大陸在簡化漢字的過程中﹐把許多在繁體中文中字形、字音、字義完全不同的多個漢字簡化到一個漢字下面。比如﹕   “頭髮”和“發財”中的“髮”和“發”全都簡化為“發”﹔   “鬱鬱寡歡”和“鬱鬱青青”中的“鬱”和“鬱”全部簡化為“鬱”   等等。所以 簡->繁 的轉換更為復雜﹐轉換器必須識別這種一對多的對應關系。否則﹐將“鬱鬱寡歡”轉換為“鬱鬱寡歡”“是相當可笑的錯誤﹐因為“鬱”在古漢語中是”美好、豐盛、文采飛揚“之意﹐漢語中的確沒有”鬱鬱寡歡“這種自相矛盾的成語。   如果您對轉換結果要求並不苛刻﹐可以嘗試使用 Microsoft Word ﹐其簡繁轉換的品質相對較好﹐作了很多表達習慣上的修訂﹐但是轉換結果中仍可以找到大量未修訂﹐不符合目標語表達習慣的地方﹐特別是各種人名、地名。具體 的情況﹐讀者可以自行在 Microsoft Word 中考証。   利用中文維基百科的簡繁轉換系統   筆者在中文維基百科大陸解封後﹐也成了一名維基貢獻貢獻者﹐用簡體中文撰寫條目﹐同時也發現了維基強大的簡繁轉換系統。例如﹐我曾在 Qt 條目中寫道﹕   經過多年發展﹐Qt不但擁有了完善的C++圖形庫﹐而且近年來的版本逐漸集成了數據庫、OpenGL庫、多媒體庫 (Phonon)、網絡庫、腳本庫、XML庫、WebKit庫等等﹐其內核庫也加入了進程間通信、多線程等模塊﹐極大的豐富了Qt開發大規模復雜跨平台應 用程序的能力﹐真正意義上實現了其研發宗旨“Code Less; Create More; Deploy Anywhere.”。   當我點擊該條目右上角的“台灣正體”後﹐出現的轉換結果為﹕   經過多年發展﹐Qt不但擁有了完善的C++圖形函式庫﹐而且近年來的版本逐漸整合了資料庫、OpenGL函式庫、多媒體函式庫(Phonon)、網路函式庫、指令碼函式庫、XML函式庫、WebKit函式庫等等﹐其核心函式庫也加入了行程間通訊、多緒等模組﹐極大的豐富了 Qt開發大規模複雜跨平台應用程式的能力﹐真正意義上實作了其研發宗旨「Code Less; Create More; Deploy Anywhere.」。   轉換結果很是完美﹐一番查找才知道這是維基的繁簡處理系統的功勞﹐成千上萬的維基人每天都在向這個系統提交或修訂最新的、最完整的簡繁轉換詞語表。這足以保証維基百科的簡繁轉換系統作為最精確的機器轉換系統﹐能夠隨時跟上兩岸三地的漢語表達習慣最新的變化。   但是﹐這個系統雖好確不能濫用﹐維基百科有嚴格的規定﹐嚴禁在條目中放置與該條目無關的內容。那還怎麼轉換我們想要的內容呢﹖難道隻能望洋興嘆﹖   筆者發現還是有空子可鑽的。維基百科為每個用戶都提供一個用戶頁面﹐其地址是http://zh.wikipedia.org/wiki/User:你的注冊名。想利用該頁面進行簡繁轉換﹐你需要做的﹐首先就是注冊成為中文維基百科用戶﹐接下來進入你的用戶頁面的編輯模式﹐寫入你想轉換的內容﹐並提交編輯。接下來就看到頁面上方那一排轉換按鈕了吧﹕ http://news.newhua.com/Files/Remoteupfile/2009-7/13/111.png
  現在你就可以好好享受這高質量的簡繁轉換了﹐不僅僅是兩岸三地﹐連馬來西亞和新加坡也包括在內了。   最後﹐筆者還要鄭重提醒您的注意﹐維基百科的用戶頁也有嚴格的規定。所以強烈建議您在完成簡繁轉換後﹐立即在您的用戶頁移除這些內容。 -- “父王最愛菊花了” …… “父王你真壞” ──《滿城盡戴黃金甲》 國共之優劣﹐猶國足與女足之優劣耳 建議勞動與社會保障部、民政部、商務部、財政部”四部合為一部,簡稱為“勞民商財部” ※ 來源:‧水木社區 newsmth.net‧[FROM: 123.145.203.*]

07/28 21:09, , 1F
勞民傷財這個好笑
07/28 21:09, 1F

07/28 21:10, , 2F
剛好需要用到,謝啦 這樣就不用我手動改
07/28 21:10, 2F

07/28 21:28, , 3F
只有數據庫有轉,後面的函式庫沒轉到...
07/28 21:28, 3F

07/28 21:28, , 4F
回車也沒轉成歸位,其他有轉成功
07/28 21:28, 4F

07/28 21:29, , 5F
向維基提交吧XD
07/28 21:29, 5F

07/28 21:32, , 6F
不過其實可以用沙盒轉就好 或預覽不提交
07/28 21:32, 6F

07/28 21:35, , 7F
可以試一下
07/28 21:35, 7F

07/28 23:21, , 8F
吹牛
07/28 23:21, 8F

07/29 07:31, , 9F
其實詞彙不應該轉換,至少對包括電腦詞彙的部
07/29 07:31, 9F

07/29 07:34, , 10F
分專業詞彙來說,大量使用會阻礙兩岸詞彙統一
07/29 07:34, 10F

07/29 08:33, , 11F
推樓上 學術詞彙 兩岸三地應該正式來個大統一
07/29 08:33, 11F

07/29 10:13, , 12F
你的米高佐敦﹐碧咸那些是粵方言翻譯﹐
07/29 10:13, 12F

07/29 10:14, , 13F
說成台灣一定懂大陸一定不懂﹐太扯了吧
07/29 10:14, 13F

07/29 10:16, , 14F
台灣也是叫貝克漢﹐不叫碧咸的...
07/29 10:16, 14F

07/29 13:42, , 15F
台灣是麥可喬丹 或邁可喬登
07/29 13:42, 15F

07/29 22:14, , 16F
香港跟台灣很多名詞也差很多
07/29 22:14, 16F
文章代碼(AID): #1ARlT_UM (Cross_Life)