[問題] gcc對非英文data c-string採什麼編碼方式?

看板C_and_CPP作者frankhsu421 (問號)時間9年前 (2015/02/15 10:50)推噓3(3推 0噓 38→)

留言41則, 6人參與討論串1/1

開發平台(Platform): (Ex: VC++, GCC, Linux, ...) VC++(2013, x86 amd64), GCC(Cygwin64) 問題(Question)：想了解編譯器對非英文的c-string是如何編碼，所以寫了下列code，方法是將兩個中文字"電腦"寫入程式碼，以char wchar_t兩種方式存入執行時讓資料以hex值output，觀察編碼情形我的問題是： g++以char儲存所編出來的碼，我找不到它是什麼編碼方式，一個中文字佔了3個char，這是什麼? UTF-24????? 結果(Wrong Output)： char wchar_t msvc2013 x86及amd64 b9 71 b8 a3 96fb 8166 (Big5 "電"0xb971 (Unicode "電"0x96fb "腦"0xb8a3) "腦"0x8166) gcc on cygwin64 e9 9b bb e8 85 a6 96fb 8166 (?????) (Unicode) 程式碼(Code)：(請善用置底文網頁, 記得排版) #include <iostream> #include <sstream> #include <string> #include <cstring> #include <cwchar> #include <cstdint>//-std=c++11 using namespace std; int main() { const char *c="電腦"; const wchar_t *wcl=L"電腦"; string buffer; ostringstream oss; cout<<"--c"<<endl; for(int i=0, siz=strlen(c); i<siz; ++i) { oss.clear(); oss.str(""); oss<<hex<<static_cast<uintmax_t>( c[i] ); buffer=oss.str(); cout<<buffer.substr(buffer.length()-sizeof(char)*2, sizeof(char)*2)<<' '; } cout<<endl; cout<<"--wcl"<<endl; for(int i=0, siz=wcslen(wcl); i<siz; ++i) { oss.clear(); oss.str(""); oss<<hex<<static_cast<uintmax_t>( wcl[i] ); buffer=oss.str(); cout<<buffer.substr (buffer.length()-sizeof(wchar_t)*2,sizeof(wchar_t)*2)<<' '; } cout<<endl; return 0; } 補充說明(Supplement)： -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.84.52 ※ 文章網址: https://www.ptt.cc/bbs/C_and_CPP/M.1423968639.A.D8E.html ※ 編輯: frankhsu421 (114.35.84.52), 02/15/2015 10:52:03 ※ 編輯: frankhsu421 (114.35.84.52), 02/15/2015 10:54:26

推

LiloHuang

02/15 11:05, , 1^F

02/15 11:05, 1^F

→

frankhsu421

02/15 11:11, , 2^F

02/15 11:11, 2^F

→

LiloHuang

02/15 11:12, , 3^F

02/15 11:12, 3^F