[問題] 中文轉注音

看板Python作者 (allstar)時間12年前 (2012/09/29 06:17), 編輯推噓6(609)
留言15則, 7人參與, 最新討論串1/1
目前使用查表法,但因為中文會有破音字,光查字表好像不夠 舉例來說,我希望像這樣 >>> parse('中文') >>> 'ㄓㄨㄥㄨㄣˊ' 但實際上是這樣 >>> parse('中文') >>> 'ㄓㄨㄥˋㄨㄣˊ' 請問有沒有辦法解決?或是有沒有詞表可用呢? 目前是使用 OXIM 的表,只有注音的字表和好像是倉頡的字表... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.46.142.159

09/29 15:11, , 1F
不然就是建常用表,然後再去修正破音字?
09/29 15:11, 1F

09/29 15:33, , 2F
自己建表工作量過大,不太可能
09/29 15:33, 2F

09/29 16:15, , 3F
丟GOOGLE翻譯 然後爬他的注音XD
09/29 16:15, 3F

09/29 19:02, , 4F
可以查線上字典
09/29 19:02, 4F

09/29 19:07, , 5F
有沒有除了查線上的方式呢?實在不太可靠 Q_Q
09/29 19:07, 5F

09/30 00:45, , 6F
中研院語料庫
09/30 00:45, 6F

09/30 00:55, , 7F
中研院語料庫好像沒有拼音耶...
09/30 00:55, 7F

09/30 01:30, , 8F
把線上字典爬下來?教育部國語辭典應該可靠吧
09/30 01:30, 8F

10/01 00:39, , 9F
最後拿OXIM+漢語口語語料庫詞頻表+現代漢語常用詞表做大雜燴
10/01 00:39, 9F

10/01 00:41, , 10F
結果有好點了,純粹靠查表還是有極限在
10/01 00:41, 10F

10/01 13:10, , 11F
我昨天做的跟你一樣
10/01 13:10, 11F

10/01 13:11, , 12F
10/01 13:11, 12F

10/01 13:12, , 13F
但是我只找最常出現的字音,完全跳過詞
10/01 13:12, 13F

10/01 13:13, , 14F
當然如果你要做到完全的,就跟作輸入法一樣費工....
10/01 13:13, 14F

10/01 13:55, , 15F
我的狀況是只能打注音,不會變國字啊啊啊
10/01 13:55, 15F
文章代碼(AID): #1GPf9j0k (Python)