[問題] 從資料庫讀取中文亂碼及空值如何進資料庫

看板Python作者時間6年前 (2018/05/12 01:36), 6年前編輯推噓0(0026)
留言26則, 2人參與, 6年前最新討論串1/1
最近想要把csv檔或是網路上的檔案連結直接寫進資料庫,感覺終於到了最後一步 卻翻遍 了google都解決不了問題 環境是pythob 3.6.1 ,anaconda 4.4.0 我在jupyter notebook下執行,使用pyodbc連接MySQL 資料來源是網址或是csv檔,我比較習慣用pandas來處理資料 這是我連接資料庫的方法 cn = pyodbc.connect("DRIVER={MySQL ODBC 8.0 ANSI Driver}; SERVER=localhost; PORT=3306;DATABASE=db; UID=root; PASSWORD=0000;OPTION=3;CHARSET=UTF8;") cn.setencoding(encoding='utf-8') 這行也不需要了 [解決方法]: DRIVER 需選擇 Unicode 的版本,從Python連接資料庫取出資料才不會變成亂碼 我不太確定在.connect下放CHARSET=UTF8; 和設定.setencoding(encoding='utf-8')有什 麼不一樣,但是只要少放一個,在insert into時如果有中文,jupyter notebook就會卡 住,都要shutdown kernel再重開才能繼續 現在有個問題就是 我可以順利的新增含有中文的資料到資料庫了,而且在MySQL中select 出來是中文,但是到了python就會變成亂碼,請問我該怎麼解決? https://imgur.com/a/1yL0qxW 還有個問題就是,我的資料裡面有空值,我寫了個迴圈 配合 .format,讓他逐行新增資 料,但是空值讀出來是nan,沒辦法新增 如果是數字欄位的話,我可以把nan轉成NULL,新增進MySQL就可以是空的,但是如果是文 字的欄位,新增的時候會變成'NULL'而不是空值了 因為我用這樣的形式新增資料 for i in df1.index: cursor.execute("insert into taichung_201711 values('{}', {});" \ .format(df1.loc[i][6], df1.loc[i][7])) 如果是字串的欄位,一開始就給他''了,要是把NaN改成NULL,就會變成'NULL'進資料庫 有方法可以直接把空值存進MySQL嗎? 這裡我還是把空值都轉成 'NULL'進資料庫,之後調資料出來再轉回nan, 目前都用DataFrame處理資料 還沒發生問題 懇請各位大大指教了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.242.11.7 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1526060186.A.017.html

05/12 09:36, 6年前 , 1F
聽起來你 MySQL 本身的編碼就沒設對
05/12 09:36, 1F

05/12 13:54, 6年前 , 2F
MySQL編碼是 utf8md4 應該沒有問題
05/12 13:54, 2F

05/12 13:54, 6年前 , 3F

05/12 13:55, 6年前 , 4F
還是要改成utf8呢?
05/12 13:55, 4F

05/13 15:52, 6年前 , 5F
今天發現了新問題,MySQL中只是看起來是中文,但要查詢時
05/13 15:52, 5F

05/13 15:52, 6年前 , 6F
卻查不出來
05/13 15:52, 6F

05/13 21:26, 6年前 , 7F
又來更新問題: MySQL可以正常查詢 我之前搞錯了
05/13 21:26, 7F

05/13 22:10, 6年前 , 8F
實在不太熟 ODBC 不確定問題在哪, 不過直覺還是覺得和資
05/13 22:10, 8F

05/13 22:10, 6年前 , 9F
料庫設定有關, 可能要確定你的 table 真的是用 UTF-8 建
05/13 22:10, 9F

05/13 22:10, 6年前 , 10F
不過 utf8md4 是正確的沒錯, 千萬不要用 utf8
05/13 22:10, 10F

05/13 23:00, 6年前 , 11F
再次附上查出來的編碼和測試 https://imgur.com/a/uCChZja
05/13 23:00, 11F

05/13 23:02, 6年前 , 12F
開頭都是utf8但後面不太一樣,可是不管哪種 在python都是
05/13 23:02, 12F

05/13 23:02, 6年前 , 13F
亂碼,我這次是在MySQL中建表 順便設定collation
05/13 23:02, 13F

05/14 16:25, 6年前 , 14F
你查的是資料庫的預設編碼, 和表的不見得一樣, 不過聽你
05/14 16:25, 14F

05/14 16:25, 6年前 , 15F
的測試法應該是有建新表, 那麼應該是用這些沒錯 (希望)
05/14 16:25, 15F

05/14 16:27, 6年前 , 16F
這樣最可能的兩個問題就是 1. 進去的編碼不對 2. 讀出來
05/14 16:27, 16F

05/14 16:27, 6年前 , 17F
後印到螢幕上的結果不對; 你需要想辦法用 binary 把資料
05/14 16:27, 17F

05/14 16:28, 6年前 , 18F
庫裡的值印出來, 比對它是不是真的是正確的編碼結果
05/14 16:28, 18F

05/15 16:52, 6年前 , 19F
https://imgur.com/a/O9Y8Cap show table status;查出來的
05/15 16:52, 19F

05/15 16:53, 6年前 , 20F
應該是表的編碼嗎? 從MySQL新增資料查詢都沒問題,到了py
05/15 16:53, 20F

05/15 16:54, 6年前 , 21F
thon才有問題,問題會是出在連線嗎? 我換個套件測試看看
05/15 16:54, 21F

05/15 16:55, 6年前 , 22F
進去的編碼不對,和用binary把值印出來 我google還是不會
05/15 16:55, 22F

05/15 16:55, 6年前 , 23F
解決。 不過還是謝謝uranusjr大大的回覆
05/15 16:55, 23F

05/15 20:53, 6年前 , 24F
我把中文欄位拿出來.encode('utf8') 發現他是bytes的形式
05/15 20:53, 24F

05/16 00:01, 6年前 , 25F
我改用pymysql連接資料庫後,可以正常的顯示中文了! 我
05/16 00:01, 25F

05/16 00:01, 6年前 , 26F
想可能是pyodbc的問題
05/16 00:01, 26F
※ 編輯: wanget (111.242.1.76), 05/23/2018 16:04:24
文章代碼(AID): #1QzTIQ0N (Python)