[問題] 如何處理UTF8字串及字元
如提 UTF8會將字元以一到三個位元組(好像最多到六個)下去表示
但是宣告字串長度時,除了宣告成
char str[len*6]以外 還有其他做法嗎?
或者是直接宣告
struct uchar{
unsigned char data[6];
};
會比較好?
或者我應該考慮固定長度為2個位元組的UTF16
只是這樣對於向下相容ASCII似乎就有麻煩了
http://zh.wikipedia.org/zh/UTF-8
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.117.182.94
推
02/15 20:36, , 1F
02/15 20:36, 1F
→
02/15 20:36, , 2F
02/15 20:36, 2F
→
02/15 20:45, , 3F
02/15 20:45, 3F
話說我剛剛查到的資料 是比較常用的都在三個位元組內
四個位元組的字現在似乎已經沒有再使用了
(當然還是可能被使用者拿來作顏文字)
但是這部分的字,假如用wchar_t下去處理,應該會更麻煩
※ 編輯: pichubaby 來自: 140.117.182.94 (02/15 20:50)
推
02/15 20:58, , 4F
02/15 20:58, 4F
推
02/15 21:08, , 5F
02/15 21:08, 5F
→
02/15 21:08, , 6F
02/15 21:08, 6F
→
02/15 21:31, , 7F
02/15 21:31, 7F
→
02/16 00:24, , 8F
02/16 00:24, 8F
→
02/16 01:45, , 9F
02/16 01:45, 9F
推
02/16 08:35, , 10F
02/16 08:35, 10F
→
02/16 12:49, , 11F
02/16 12:49, 11F
→
02/16 12:50, , 12F
02/16 12:50, 12F
→
02/16 12:53, , 13F
02/16 12:53, 13F
→
02/16 12:53, , 14F
02/16 12:53, 14F
→
02/16 13:23, , 15F
02/16 13:23, 15F
→
02/16 21:28, , 16F
02/16 21:28, 16F
假如說使用者輸入一個非big5字碼的字 例如韓文
那麼iconv應該就無能為力了吧?
※ 編輯: pichubaby 來自: 140.117.182.94 (02/18 01:56)
→
02/18 09:35, , 17F
02/18 09:35, 17F
→
02/18 10:21, , 18F
02/18 10:21, 18F
→
02/18 10:46, , 19F
02/18 10:46, 19F
→
02/18 11:57, , 20F
02/18 11:57, 20F
→
02/18 20:26, , 21F
02/18 20:26, 21F
→
02/18 20:27, , 22F
02/18 20:27, 22F
→
02/18 20:28, , 23F
02/18 20:28, 23F
→
02/18 21:00, , 24F
02/18 21:00, 24F
→
02/18 21:00, , 25F
02/18 21:00, 25F
→
02/19 04:18, , 26F
02/19 04:18, 26F
→
02/19 16:06, , 27F
02/19 16:06, 27F
推
02/21 20:44, , 28F
02/21 20:44, 28F
→
02/23 23:07, , 29F
02/23 23:07, 29F