[問題] json.loads的問題

看板Python作者 (妮妮漢堡)時間8年前 (2017/08/27 02:47), 8年前編輯推噓3(3013)
留言16則, 4人參與, 最新討論串1/1
我寫了一個小程式去爬取證交所的資料, 一開始還蠻順利的不過到2006/01/25之後程式就中斷了。 爬了些文說是json數據太多之類的,小弟還是新手,到這邊就卡關了,也不太明白為什麼 一開始還可以順順的執行,之後卻不行。 還請大大們幫忙指教,謝謝! 以下是我的程式碼: from bs4 import BeautifulSoup import requests import json import csv import time, datetime, os #SINCE 2004/10/15 to this year start_date = datetime.datetime( 2004, 10, 15) end_date = datetime.datetime.now() start_date = update() #update totaldays = (end_date - start_date).days + 1 for day_list in range(totaldays): date_str = (start_date + datetime.timedelta(days = day_list)).date() year = date_str.year month = date_str.month day = date_str.day #print(date_str.strftime("%Y%m%d")) directory = 'D:/stock/Raw_data/TWSE_5MIN/' filename = date_str.strftime("%Y%m%d")+'.csv' makedirs() #create directory function json_data = get_webmsg( year, month, day) #put the data into smt if (json_data != False): write_csv( directory, filename, json_data) #write csv function time.sleep(1) else: continue def get_webmsg( year, month, day): date = str(year) + "{0:0=2d}".format(month) + "{0:0=2d}".format(day) url_twse = 'http://www.twse.com.tw/exchangeReport/MI_5MINS?response=json&date='+ date res = requests.post( url_twse) soup = BeautifulSoup( res.text, 'html.parser') smt = json.loads( soup.text) s1 = {'stat': '很抱歉,沒有符合條件的資料!'} if(smt != s1): return smt else: return False def write_csv( directory, filename, json_data): writefile = directory + filename outputFile = open( writefile,'w', newline='') outputWriter = csv.writer( outputFile) head = ''.join( json_data['title']).split() a = [ head, ""] outputWriter.writerow(a) outputWriter.writerow( json_data['fields']) for data in (json_data['data']): outputWriter.writerow(data) outputFile.close() def makedirs(): directory = 'D:/stock/Raw_data/TWSE_5MIN' if not os.path.isdir(directory): os.makedirs(directory) def update(): path = 'D:\stock\Raw_data\TWSE_5MIN' files_list = os.listdir(path) date_str = files_list[-1] y = int(date_str[:4]) m = int(date_str[5:6]) d = int(date_str[6:8]) + 1 update_date = datetime.datetime( y, m, d) return update_date 錯誤代碼是:JSONDecodeError: Extra data: line 2 column 5 (char 5) -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.176.145 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1503773265.A.BB9.html ※ 編輯: niburger1001 (114.25.176.145), 08/27/2017 02:54:42

08/27 10:53, , 1F
先看一下讀進來的json格式
08/27 10:53, 1F

08/28 08:13, , 2F
看來 是原始資料的問題阿........
08/28 08:13, 2F

08/28 08:22, , 3F
如果推測沒錯的話 2006年1月26 發生恆春大地震
08/28 08:22, 3F

08/28 08:23, , 4F
股市暫停交易(兩天) 沒有資料是很正常的.........
08/28 08:23, 4F

08/28 08:28, , 5F
再者,你是用py3 是否跟decode encode有關?(我是用py2)
08/28 08:28, 5F

08/28 08:31, , 6F
因為我一直覺得 都跑到if(smt != s1):return smt
08/28 08:31, 6F

08/28 08:31, , 7F
沒資料情況,並沒有跳到else:return False
08/28 08:31, 7F

08/28 08:43, , 8F
你把soup.text丟進去smt內時,都已經變成unicode
08/28 08:43, 8F

08/28 08:44, , 9F
unicode一直都不會等於utf-8 所以並不會跳到else去
08/28 08:44, 9F

08/28 17:38, , 10F
上次也有玩一陣子 似乎暫停交易日不會出現在網站上
08/28 17:38, 10F

08/28 17:38, , 11F
也撈不到吧?
08/28 17:38, 11F

08/29 02:30, , 12F
最近較忙 謝謝大大們的建議 我會先看那幾天資料到
08/29 02:30, 12F

08/29 02:30, , 13F
底跟非交易日的資料有沒有差別 有下載成功的資料
08/29 02:30, 13F

08/29 02:30, , 14F
都有跳過非交易日
08/29 02:30, 14F

08/29 02:31, , 15F
那時候想法很單純 非交易跟暫停交易都一樣沒有資料
08/29 02:31, 15F

08/29 02:33, , 16F
編碼的問題我也會去了解 謝謝大大們給的方向
08/29 02:33, 16F
文章代碼(AID): #1PeS9Hkv (Python)