Re: [問題] 讀檔不完整 (ANSI 文字檔)
首先聲明,這篇沒有解決辦法,只是旨在提供相關的背景知識。
第一樣講編碼。編碼 (encoding) 指的是什麼?舉個簡單例子。
首先 Java 運作時統統用 Unicode (UTF16 吧?) ,簡單的把
它想成 Java 裡的 character 夠大,能放世上所有的文字。
可是你的檔案,絕大部份時候都不是用 Unicode 來存。Big5
的標準下,“我”字是用兩個 byte A7DA 來代表,可是在
UTF-8 底下,A7DA 代表的是另一個字(你當成是“你”字好
了,實際是別的東西,只是做例子而已)。好了,當 Java
要讀你的檔,面對一串的 bytes, 讀進來的是兩個 bytes 是A7 DA,
Java 要怎麼才能知道應該當成“我”字還是“你”字?這就
要靠你提供編碼了。當 Java 被告知這次讀檔是要用 Big5 讀,
它就知道這個 A7 DA 代表“我”字,如果被告知是用 UTF-8 讀,
它就知道這個代表“你”字。
簡而言之,所謂編碼你可以想成是 字 的表示方法,對於 Java
而言,就是把 bytes 轉成 chars 及 chars 轉成 bytes 的格式。
(上面的講法只是把故事講得盡量淺白,有些不太準確)
第二要講的是 "ANSI 編碼",嚴格上世上沒有一種編碼叫 ANSI。
ASCII 大家都知道,有一個 ANSI 規格,算是把 ASCII 擴充,
用盡了 8 bits. Windows 中所謂 ANSI 編碼,就單統是指每個
byte 都會用到 8 bits,換而言之,就是沒編碼。Windows 怎樣
讀檔,就是依據 Windows 裡面的default 的編碼 (windows 裡
又叫這叫 codepage),即是如果你的 Windows 設了做 Big5,
你所謂的 ANSI 編碼存的文字檔其實就是 Big5, Windows 設了做
GBK, 存的檔就是 GBK。
Java 讀檔時,如果你沒有明講要用哪一種編碼,沒記錯的話是會
用系統設定的,如果你的 windows 設了做 Big5,那麼它就會當
是 Big5 來讀檔。想當然耳,如果用來讀 UTF-8 的檔就當然會
出問題。
第三講的是判斷編碼。面對一個文字檔,我怎麼知道是 Big5 還
是 UTF8? 簡單來說是沒方法。道理很簡單,假設檔裡面只有兩個
bytes A7 DA,你當 Big5 讀也對(讀出“我”字),當 UTF-8 讀
也對(讀出“你”字),除非我有超能力否則我怎麼可能知道你
本身想寫的是哪個字?
有些工具(Java 上好像少見)好像會靠裡面的文字去猜編碼,
比如出現某些組合是 Big5 的規格中沒用到,那它就知道這檔不是
Big5。可是,也是想當然耳,並不準確。
還有一個可能性,某些編碼(好像只是 unicode 系列的才有)在存
文字檔的時候,會在最開初有幾個特別的 bytes 來表達自己是什麼
編碼 (Byte Order Mark, BOM),不過很可惜,UTF-8 的檔並不一定
會有 BOM(甚至可以說是不建議使用),要是剛好你的檔有存 BOM
你或者可以用此作判斷。
簡而言之,Java 很笨 (同樣可以套到其他語言),你不告訴它一
個檔是什麼編碼,它沒法自己猜要用什麼編碼讀。你設計程式就要
想方法告訴它正確的編碼,no magic。
Alien
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 223.19.42.175
※ 編輯: adrianshum 來自: 223.19.42.175 (05/24 23:11)
→
05/24 23:52, , 1F
05/24 23:52, 1F
→
05/24 23:54, , 2F
05/24 23:54, 2F
推
05/25 02:56, , 3F
05/25 02:56, 3F
→
05/25 02:58, , 4F
05/25 02:58, 4F
推
05/25 19:40, , 5F
05/25 19:40, 5F
推
05/26 01:36, , 6F
05/26 01:36, 6F
→
06/21 21:01, , 7F
06/21 21:01, 7F
討論串 (同標題文章)
完整討論串 (本文為第 3 之 3 篇):