Re: [問卦] 繁簡轉換程式為何面麵、后後不分?

看板Gossiping作者 (樹枝擺擺)時間7月前 (2023/10/09 20:45), 編輯推噓5(502)
留言7則, 6人參與, 7月前最新討論串3/3 (看更多)
※ 引述《reppoc (稍會)》之銘言: : 我知道是因為繁體的後=簡體的后字 : 繁體的麵=簡體的面字, : 簡體轉繁體時, : 明明只要把所有有關字詞取代成正確的就好, : 也沒多少個特例, : 繁簡轉換程式就是做不到, : 常常看YT影片字幕都會看到面麵不分、 : 后後不分,強迫症發作實在讓人很不舒服。 : 為什麼都沒有要改? : 卦? 因為書寫的中文不像書寫的英文,有用空格分開成一個個的token, 書時使用的人造符號比較少,以致後面要用電腦處理時困難較大, 具體來說,就是中文的tokenization會比英文的tokenization更可能造成不理想的效果 例如: 后面>後面(O) 皇后面對質問>皇後面對質問(X) 結論是,不能隨便拿份對照表來匹配,很危險 如果書寫中文有人造符號事先切割成「皇后 面對 質問」 那用簡轉繁工具可以用最簡單的對照表、依匹配原則先長後短的方式處理 所以簡體版的「皇后」優先配對到,對應成正體版的「皇后」 (當然如果pattern長度一致時該先匹配誰又是另一個問題) 整體來說,書寫英文的人造符號比中文多,所以不只簡繁互換, 在很多事情上,書寫英文要處理起來相對問題比較少, 例如英文句首必然是大寫,但中文沒有大寫, 句首必為大寫,可以是一個很好用的規則, 例如一篇文章中,.?!"'等符號,後面接的1或2個空格後,理應出現大寫(當然有例外) 書寫中文當然也有人造符號,標點符號就是一個, 早期中文書籍是沒有標點符號的,至少沒有統一的標點符號 反過來說,書寫英文多了空格,在電腦處理上比書寫中文方便許多, 但也是有人主張應該反璞歸真, 取消書寫體中的人造符號,例如空格及標點符號,讓書寫更接近口語, 也就是讓「文」更接近「語」,不過幸好這種言論太邊緣了沒人理 但由於書寫中文在第一時間使用的人造符號比較少,後續要彌補已經很難, 除非用AI處理tokenization有極高準確率, 然後文章要先經過AI的tokenization後再去簡繁轉換, 不然后後不符、面麵不分不可能解決 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.249.160.187 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696855534.A.28C.html

10/09 20:49, 7月前 , 1F
一勞永逸法就是在來源端就規範簡體鄉
10/09 20:49, 1F

10/09 20:49, 7月前 , 2F
民輸入後、麵。
10/09 20:49, 2F

10/09 20:53, 7月前 , 3F
一勞永逸法就是把當初提簡化字的被消失
10/09 20:53, 3F

10/09 20:55, 7月前 , 4F
不是啊 我看他們靈位也寫皇後啊
10/09 20:55, 4F

10/09 21:05, 7月前 , 5F
用錯太久就變笨了 變文盲
10/09 21:05, 5F

10/09 21:05, 7月前 , 6F
後后 翻一次看看?
10/09 21:05, 6F

10/09 22:04, 7月前 , 7F
認真回 推一下
10/09 22:04, 7F
文章代碼(AID): #1b8_NkAC (Gossiping)
文章代碼(AID): #1b8_NkAC (Gossiping)