[問題] 有關文字文件編碼判斷

看板java作者 (oo)時間18年前 (2007/12/30 12:49), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/2 (看更多)
我最近在做一個關於文字檔(*.doc, *.txt..etc.) 的編碼判斷程式,然後我在網路上找到一個package -- jchardet, 按照上面寫的範例套進去使用, 在文件打開,讀取一部份的位元陣列byte[], 然後丟進這個package某個method, 可是我測試之後發現這個套件的編碼判斷不是很準確, 好像只有ascii的編碼會正確判斷出來, 其他包括UTF-8, unicode都會判斷失敗, 然後列出一長串"可能的編碼"。 在這個部分,請問有沒有人曾經做過類似的事, 有沒有比較好的解法? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.252.85.154
文章代碼(AID): #17ToDkDM (java)
文章代碼(AID): #17ToDkDM (java)