[問題] 大量資料groupby 速率問題

看板Python作者 (Wezzy)時間2年前 (2023/05/28 15:16), 編輯推噓4(4010)
留言14則, 5人參與, 最新討論串1/1
大家好,小弟目前在處理大量資料時遇到了一些問題 我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前 的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向 量化的方式去進行向量化運算 而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加 ,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花 費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多 想請問各位有沒有什麼比較好的處理方法,感謝不盡! ---- Sent from BePTT -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.245.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1685286971.A.85B.html

05/28 23:53, 2年前 , 1F
polars
05/28 23:53, 1F

05/29 11:17, 2年前 , 2F
05/29 11:17, 2F

06/04 11:37, , 3F
問個可能不太正確的問題,如果把原始資料集複製一次
06/04 11:37, 3F

06/04 11:38, , 4F
算出目標函數存下來,然後把複製的資料集drop掉,再把
06/04 11:38, 4F

06/04 11:39, , 5F
原始資料集複製算下一個目標函數,如果這算法是符合需
06/04 11:39, 5F

06/04 11:40, , 6F
求的話,會省滿多資源的,而且N的數量應該可以會比
06/04 11:40, 6F

06/04 11:40, , 7F
原本一口氣算的多
06/04 11:40, 7F

06/04 14:57, , 8F
後來發現直接複製N次做向量化運算會快很多
06/04 14:57, 8F

06/04 14:57, , 9F
因為如果每次複製一次算一次代表有N組參數就要跑N次 或
06/04 14:57, 9F

06/04 14:57, , 10F
者我還沒有想到其他方法哈哈
06/04 14:57, 10F

06/04 17:24, , 11F
如果有最小可執行的程式 才能幫你看怎麼做 不然也是
06/04 17:24, 11F

06/04 17:24, , 12F
請鬼抓藥單
06/04 17:24, 12F

06/17 14:48, , 13F
Cask
06/17 14:48, 13F

06/17 14:48, , 14F
Dask
06/17 14:48, 14F
文章代碼(AID): #1aSt0xXR (Python)