[問題] 用requests.post爬蟲 以及編碼的問題
小弟因為專題需要爬證交所網站的一些資料,所以用python 2.7 和requests套件操作
網址如下:
http://www.twse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php
(每個月份都要爬)
程式碼如下:
import requests
payload = {
'myear': 2016,
'mmom': 5
}
url='http://www.twse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php'
page = requests.post(url, data=payload)
print page.text.decode('iso-8859-1').encode('utf8')
然後就遇到兩個問題:
1.有抓到東西,但是只有抓到其他不重要的,數據的部分完全沒有
(應該是payload那有錯,抱歉小弟連html都沒寫過QQ)
2.抓下來的編碼是亂碼,所以加了爬文看到的解碼那行,卻出現error:
UnicodeEncodeError: 'ascii' codec can't encode character u'\xbb' in position
130: ordinal not in range(128)
整整花了3個半天還是搞不定,只好PO文求救了QQ
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.1.179.6
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1467316011.A.17A.html
推
07/01 05:42, , 1F
07/01 05:42, 1F
→
07/01 05:43, , 2F
07/01 05:43, 2F
→
07/01 08:07, , 3F
07/01 08:07, 3F
→
07/01 08:07, , 4F
07/01 08:07, 4F
→
07/01 08:09, , 5F
07/01 08:09, 5F
→
07/01 08:10, , 6F
07/01 08:10, 6F
→
07/01 21:15, , 7F
07/01 21:15, 7F
→
07/01 21:15, , 8F
07/01 21:15, 8F
→
07/01 21:17, , 9F
07/01 21:17, 9F
→
07/01 21:22, , 10F
07/01 21:22, 10F
→
07/01 21:22, , 11F
07/01 21:22, 11F
→
07/01 21:22, , 12F
07/01 21:22, 12F
推
07/01 22:39, , 13F
07/01 22:39, 13F

→
07/01 22:40, , 14F
07/01 22:40, 14F
→
07/02 06:34, , 15F
07/02 06:34, 15F
→
07/02 06:36, , 16F
07/02 06:36, 16F
推
07/03 18:30, , 17F
07/03 18:30, 17F
→
07/03 18:31, , 18F
07/03 18:31, 18F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):