Re: [問卦] 繁簡轉換程式為何面麵、后後不分？

看板Gossiping作者liquidbox (樹枝擺擺)時間7月前 (2023/10/09 20:45)推噓5(5推 0噓 2→)

留言7則, 6人參與討論串3/3 (看更多)

※ 引述《reppoc (稍會)》之銘言： : 我知道是因為繁體的後=簡體的后字 : 繁體的麵=簡體的面字， : 簡體轉繁體時， : 明明只要把所有有關字詞取代成正確的就好， : 也沒多少個特例， : 繁簡轉換程式就是做不到， : 常常看YT影片字幕都會看到面麵不分、 : 后後不分，強迫症發作實在讓人很不舒服。 : 為什麼都沒有要改？ : 卦？因為書寫的中文不像書寫的英文，有用空格分開成一個個的token，書時使用的人造符號比較少，以致後面要用電腦處理時困難較大，具體來說，就是中文的tokenization會比英文的tokenization更可能造成不理想的效果例如：后面>後面(O) 皇后面對質問>皇後面對質問(X) 結論是，不能隨便拿份對照表來匹配，很危險如果書寫中文有人造符號事先切割成「皇后面對質問」那用簡轉繁工具可以用最簡單的對照表、依匹配原則先長後短的方式處理所以簡體版的「皇后」優先配對到，對應成正體版的「皇后」（當然如果pattern長度一致時該先匹配誰又是另一個問題）整體來說，書寫英文的人造符號比中文多，所以不只簡繁互換，在很多事情上，書寫英文要處理起來相對問題比較少，例如英文句首必然是大寫，但中文沒有大寫，句首必為大寫，可以是一個很好用的規則，例如一篇文章中，.?!"'等符號，後面接的1或2個空格後，理應出現大寫（當然有例外）書寫中文當然也有人造符號，標點符號就是一個，早期中文書籍是沒有標點符號的，至少沒有統一的標點符號反過來說，書寫英文多了空格，在電腦處理上比書寫中文方便許多，但也是有人主張應該反璞歸真，取消書寫體中的人造符號，例如空格及標點符號，讓書寫更接近口語，也就是讓「文」更接近「語」，不過幸好這種言論太邊緣了沒人理但由於書寫中文在第一時間使用的人造符號比較少，後續要彌補已經很難，除非用AI處理tokenization有極高準確率，然後文章要先經過AI的tokenization後再去簡繁轉換，不然后後不符、面麵不分不可能解決 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.249.160.187 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696855534.A.28C.html

推

zero00072

10/09 20:49, 7月前 , 1^F

10/09 20:49, 1^F

→

zero00072

10/09 20:49, 7月前 , 2^F

10/09 20:49, 2^F

→

z80680613

10/09 20:53, 7月前 , 3^F

10/09 20:53, 3^F