Re: [問題] Unicode Decode Error

看板Web_Design作者 (suhang)時間11年前 (2014/10/30 15:00), 編輯推噓2(205)
留言7則, 2人參與, 最新討論串2/2 (看更多)
※ 引述《suhang (suhang)》之銘言: : 標題: [問題] Unicode Decode Error : 時間: Wed Oct 29 13:28:18 2014 : : 我寫了一個crawler爬網頁 : 按照view page source <meta content="text/html; charset=Big5"> : 我用Big5 解碼回傳的 byte string : Python卻回應某些byte無法解碼 : UnicodeDecodeError: illegal multibyte sequence : : 1 : 瀏覽器也是設定Big5解碼 : 那為什麼瀏覽器可以正確的顯現所有內容? : : 2 : 我試著用utf8瞎猜去解碼,一樣有error : 請問我該如何處理這個錯誤而能顯示我所抓下來的網頁? : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.169.54.91 : ※ 文章網址: http://www.ptt.cc/bbs/Web_Design/M.1414560500.A.39C.html : 推 LPH66: 什麼網頁? 10/29 22:10 : 推 mmis1000: python內建的decoder很suck,不會略過錯誤的字元 10/30 02:05 : → mmis1000: 幾乎無法使用,去找替代的lib如何? 10/30 02:06 : → mmis1000: 好吧,其實有忽視錯誤的參數 10/30 02:10 : → mmis1000: http://goo.gl/DQnZw7 10/30 02:15 謝謝你的連結 我加了 ignore 繞過 但是這樣似乎有點治標不治本 有辦法update python big5 codec嗎? 或是有third-party package 可以 import之後解碼嗎? thanks -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.169.54.91 ※ 文章網址: http://www.ptt.cc/bbs/Web_Design/M.1414652438.A.655.html

10/30 15:38, , 1F
http://goo.gl/JP8a7J 請愛用 google 跟 stackoverflow
10/30 15:38, 1F

10/30 15:42, , 2F
btw 大部分軟體跟瀏覽器的標準行為,是把不認識的字
10/30 15:42, 2F

10/30 15:43, , 3F
替換成 http://goo.gl/Vy1nZI (ptt打不出來)
10/30 15:43, 3F

10/30 16:00, , 4F
還有一個可能是其實瀏覽器是認得某些內容的
10/30 16:00, 4F

10/30 16:01, , 5F
也就是瀏覽器使用的解碼表跟你用的解碼表不一樣
10/30 16:01, 5F

10/30 16:02, , 6F
(這也是原 PO 的問題) 這種解法一般是自己去找份解碼表來用
10/30 16:02, 6F

10/30 16:02, , 7F
例如 PCMan 就是自己準備解碼表的
10/30 16:02, 7F
文章代碼(AID): #1KKU8MPL (Web_Design)
討論串 (同標題文章)
文章代碼(AID): #1KKU8MPL (Web_Design)