[問題] 有關文字文件編碼判斷
我最近在做一個關於文字檔(*.doc, *.txt..etc.)
的編碼判斷程式,然後我在網路上找到一個package -- jchardet,
按照上面寫的範例套進去使用,
在文件打開,讀取一部份的位元陣列byte[],
然後丟進這個package某個method,
可是我測試之後發現這個套件的編碼判斷不是很準確,
好像只有ascii的編碼會正確判斷出來,
其他包括UTF-8, unicode都會判斷失敗,
然後列出一長串"可能的編碼"。
在這個部分,請問有沒有人曾經做過類似的事,
有沒有比較好的解法?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.252.85.154
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):