[問題] dataframe卡關

看板Python作者 (溫柔殺手)時間4年前 (2020/01/28 23:09), 4年前編輯推噓7(7018)
留言25則, 5人參與, 4年前最新討論串1/1
各位版上的大大晚上好,我正在寫一個資料分析,目前卡關了。 請高手指導一下,感恩。 我的原始資料如下 品名 出貨數量 出貨日期 165 667 7000 2019-01-04 169 667 5000 2019-03-20 167 667 6000 2019-06-05 168 667 6000 2019-06-05 164 667 9000 2019-10-02 170 667 3500 2019-10-02 166 667 7000 2019-12-03 其中165,169,167.....,166是原本的資料序號 也就是說,這個資料是我已經經過處理的資料。 我想要做的事情是把每個月分的資料作統計預,計資料應該是長成下方兩種其中一種 Type1: 出貨數量 出貨月份 7000 01 5000 03 12000 06 12500 10 7000 12 Type2: M=[01,03,06,10,12] V=[7000,5000,12000,12500,700] 我有試過for loop加上if判斷,但是最後都卡在index的問題解決不了。 這個用SQL幾行就解決了。 不過最近在學習Pandas的Dataframe操作所以就想拿來做做看。 結果~~卡關~~~真的是有點丟臉,但是問題還是要解決,不然我時間就白花了。 懇請高手指點一下,感恩。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.1.36.147 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1580224160.A.13E.html ※ 編輯: yimean (106.1.36.147 臺灣), 01/28/2020 23:10:09

01/28 23:55, 4年前 , 1F
df=df.set_index(["出貨日期"])
01/28 23:55, 1F

01/28 23:56, 4年前 , 2F
以時間序列做index,然後設取樣頻率
01/28 23:56, 2F

01/29 00:05, 4年前 , 3F
resample,asfreq...相關用法及參數下得好,比SQL更簡單
01/29 00:05, 3F

01/29 00:13, 4年前 , 4F
或者新增一個月份欄位來groupby
01/29 00:13, 4F

01/29 00:34, 4年前 , 5F
df['月']=df['出貨日期'].map(lambda x:x[5:7])
01/29 00:34, 5F

01/29 00:47, 4年前 , 6F
把出貨日期轉datetime再groupby月份感覺比較好
01/29 00:47, 6F

01/29 02:02, 4年前 , 7F
有時上一下stackoverflow就會晃然大悟:N小時前的我是在
01/29 02:02, 7F

01/29 02:02, 4年前 , 8F
蠢什麼的...這麼簡單的東西搞老半天
01/29 02:02, 8F

01/29 10:42, 4年前 , 9F
感謝p大, T大跟O大 我已經成功取得月分了,但是我畫不了圖
01/29 10:42, 9F
ER['月']=ER['出貨日期'].dt.month V=pd.DataFrame() V=ER.groupby('月').sum() V長這樣 月 1 7000 3 5000 6 12000 10 12500 12 7000 Name: 出貨數量, dtype: int64 我有試過plt(V.['月'],V.['出貨數量']) 但是還是錯誤 >.< ValueError: shape mismatch: objects cannot be broadcast to a single shape ※ 編輯: yimean (106.1.36.147 臺灣), 01/29/2020 10:46:06

01/29 11:44, 4年前 , 10F
group by後好像變成series不是dataframe 所以不太能用
01/29 11:44, 10F

01/29 11:44, 4年前 , 11F
index方式取值
01/29 11:44, 11F

01/29 11:45, 4年前 , 12F
可以試試plt(V.index, V.values)
01/29 11:45, 12F

01/29 12:03, 4年前 , 13F
@T大感謝回應,還是不行,我把V.index跟V.values印出來
01/29 12:03, 13F
print(V.index) print(V.values) 長這樣 Int64Index([1, 3, 6, 10, 12], dtype='int64', name='月') [[ 7000] [ 5000] [12000] [12500] [ 7000]] ※ 編輯: yimean (106.1.36.147 臺灣), 01/29/2020 12:04:08

01/29 12:12, 4年前 , 14F
我最終找到這個解法S=V.unstack()
01/29 12:12, 14F

01/29 12:13, 4年前 , 15F
plt.bar(V.index, S.values) 但是我不知道為什麼。
01/29 12:13, 15F

01/29 12:21, 4年前 , 16F
因為shape不同啊
01/29 12:21, 16F

01/29 12:21, 4年前 , 17F
一個是(5,)一個是(5,1)
01/29 12:21, 17F

01/29 12:21, 4年前 , 18F
所以他說mismatch
01/29 12:21, 18F

01/29 12:21, 4年前 , 19F
因此做unstack後
01/29 12:21, 19F

01/29 12:21, 4年前 , 20F
兩個shape都是(5,)
01/29 12:21, 20F

01/29 12:21, 4年前 , 21F
就能畫了
01/29 12:21, 21F

01/29 14:40, 4年前 , 22F
@k大,原來如此,感謝指導。這一路走來真是漫長呢哈哈。
01/29 14:40, 22F

01/29 20:49, 4年前 , 23F
用jupyter看顯示出的樣子久了,可以看出V是Series
01/29 20:49, 23F

01/29 20:51, 4年前 , 24F
series.to_frame().plot.bar() 轉成df再畫也OK
01/29 20:51, 24F

01/29 20:54, 4年前 , 25F
你就不用拆x跟y,也可以同年份多欄位的bar一次畫出來
01/29 20:54, 25F
文章代碼(AID): #1UC4wW4- (Python)