Re: [問題] Unicode Decode Error
※ 引述《suhang (suhang)》之銘言:
: 標題: [問題] Unicode Decode Error
: 時間: Wed Oct 29 13:28:18 2014
:
: 我寫了一個crawler爬網頁
: 按照view page source <meta content="text/html; charset=Big5">
: 我用Big5 解碼回傳的 byte string
: Python卻回應某些byte無法解碼
: UnicodeDecodeError: illegal multibyte sequence
:
: 1
: 瀏覽器也是設定Big5解碼
: 那為什麼瀏覽器可以正確的顯現所有內容?
:
: 2
: 我試著用utf8瞎猜去解碼,一樣有error
: 請問我該如何處理這個錯誤而能顯示我所抓下來的網頁?
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.169.54.91
: ※ 文章網址: http://www.ptt.cc/bbs/Web_Design/M.1414560500.A.39C.html
: 推 LPH66: 什麼網頁? 10/29 22:10
: 推 mmis1000: python內建的decoder很suck,不會略過錯誤的字元 10/30 02:05
: → mmis1000: 幾乎無法使用,去找替代的lib如何? 10/30 02:06
: → mmis1000: 好吧,其實有忽視錯誤的參數 10/30 02:10
: → mmis1000: http://goo.gl/DQnZw7 10/30 02:15
謝謝你的連結
我加了 ignore 繞過
但是這樣似乎有點治標不治本
有辦法update python big5 codec嗎?
或是有third-party package 可以 import之後解碼嗎?
thanks
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.169.54.91
※ 文章網址: http://www.ptt.cc/bbs/Web_Design/M.1414652438.A.655.html
推
10/30 15:38, , 1F
10/30 15:38, 1F
→
10/30 15:42, , 2F
10/30 15:42, 2F
→
10/30 15:43, , 3F
10/30 15:43, 3F
推
10/30 16:00, , 4F
10/30 16:00, 4F
→
10/30 16:01, , 5F
10/30 16:01, 5F
→
10/30 16:02, , 6F
10/30 16:02, 6F
→
10/30 16:02, , 7F
10/30 16:02, 7F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):