[問題] 請問擷取原始碼中文問題

看板Python作者 (悠閒)時間9年前 (2015/07/03 23:25), 編輯推噓1(1010)
留言11則, 4人參與, 最新討論串1/1
擷取的頁面:http://isin.twse.com.tw/isin/C_public.jsp?strMode=2 我是用python3 , sublime執行 但印出的中文會顯示如\xa1@\xa5x\xaad這樣字眼 使用python console >>> b'\xa1@\xa5x\xaad'.decode('utf-8')解不出來 請教各位這該如何解,編碼實在很惱人... --- # -*- coding:utf8 -*- import urllib.request as urllib2 import sys headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} req = urllib2.Request('http://isin.twse.com.tw/isin/C_public.jsp?strMode=2' , headers=headers) content = urllib2.urlopen(req).read() print(content) --- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.192.105 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1435937158.A.4A3.html

07/03 23:48, , 1F
這個網頁是Big5
07/03 23:48, 1F

07/04 00:10, , 2F
我很懶,我都用django的smart_string來處理這種事,
07/04 00:10, 2F

07/04 00:10, , 3F
編碼什麼的幾乎都能搞定,超方便的啦
07/04 00:10, 3F

07/04 00:22, , 4F
@@原來是big5..哈!因為初學所以先玩一下再去用Django
07/04 00:22, 4F

07/04 00:31, , 5F
請愛用 chardet
07/04 00:31, 5F

07/04 00:35, , 6F
感謝各位!
07/04 00:35, 6F

07/04 00:36, , 7F
另外請問...在console打>>>b'\xa5x\xaad'.decode('big5')
07/04 00:36, 7F

07/04 00:37, , 8F
但在程式打print(b'\xa5x\xaad'.decode('big5'))似乎不行?
07/04 00:37, 8F

07/04 01:38, , 9F
Windows 請再加一段 .encode('cp950')
07/04 01:38, 9F

07/04 01:49, , 10F
我是希望sublime可以也印出中文'台泥'的字眼
07/04 01:49, 10F

07/04 16:27, , 11F
不要用 Sublime Text console 謝謝
07/04 16:27, 11F
文章代碼(AID): #1Lbgc6IZ (Python)