[問題] 大量資料groupby 速率問題
大家好,小弟目前在處理大量資料時遇到了一些問題
我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前
的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向
量化的方式去進行向量化運算
而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加
,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花
費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多
想請問各位有沒有什麼比較好的處理方法,感謝不盡!
----
Sent from BePTT
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.245.137 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1685286971.A.85B.html
→
05/28 23:53,
2年前
, 1F
05/28 23:53, 1F
推
05/29 11:17,
2年前
, 2F
05/29 11:17, 2F
推
06/04 11:37, , 3F
06/04 11:37, 3F
→
06/04 11:38, , 4F
06/04 11:38, 4F
→
06/04 11:39, , 5F
06/04 11:39, 5F
→
06/04 11:40, , 6F
06/04 11:40, 6F
→
06/04 11:40, , 7F
06/04 11:40, 7F
→
06/04 14:57, , 8F
06/04 14:57, 8F
→
06/04 14:57, , 9F
06/04 14:57, 9F
→
06/04 14:57, , 10F
06/04 14:57, 10F
推
06/04 17:24, , 11F
06/04 17:24, 11F
→
06/04 17:24, , 12F
06/04 17:24, 12F
推
06/17 14:48, , 13F
06/17 14:48, 13F
→
06/17 14:48, , 14F
06/17 14:48, 14F