[問題] multiprocess變得很慢?

看板Python作者 (nahgnimiast)時間4年前 (2020/04/27 02:02), 4年前編輯推噓5(5013)
留言18則, 8人參與, 4年前最新討論串1/1
程式碼在 https://ideone.com/3ZTGat opencc是下面這個版本 https://pypi.org/project/opencc-python-reimplemented/ 環境是python3.8, windows8. #1 result = [] #2 for i in range(total): #3 res = pool.apply_async(self.func1, args=(i,)) #4 result.append(res) #5 pool.close() #6 #pool.join() #7 self.aa = OpenCC('s2twp') 1. 如果self.aa有設值,程式跑完需要16秒 2. self.aa拿掉的話0.13秒就跑完 3. 如執行pool.join(),結果是0.18秒 4. 把#7把放pool.join前面,並執行pool.join(),結果16秒 5. 把#7加到__init__,並執行pool.join(),結果16秒 6. 把self.aa = OpenCC(..)改成 aa=OpenCC(..), 0.1x秒 感覺只要apply_async的任務跑完前,把OpenCC指給self,就會卡卡的, 問題感覺是出在opencc, 請問有可能是什麼原因? opencc只有一隻py檔,就下面這隻 https://github.com/yichen0831/opencc-python/blob/master/opencc/opencc.py -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.87.190 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1587924129.A.4A3.html

04/27 02:39, 4年前 , 1F
不懂和multiprocessing有什麼關係
04/27 02:39, 1F

04/27 03:24, 4年前 , 2F
的確沒關係
04/27 03:24, 2F
https://ideone.com/r139RS 拿掉multiprocess, 跑起來就0.1x秒,不受self.aa影響

04/27 18:06, 4年前 , 3F
開multiprocess 成本很高 開了是要丟大量運算 平行化的效果
04/27 18:06, 3F

04/27 18:06, 4年前 , 4F
才顯現得出來
04/27 18:06, 4F

04/27 19:48, 4年前 , 5F
沒有大量運算用multiprocess反而會變慢
04/27 19:48, 5F
問題是慢得很奇怪,應該跟沒有大量運算用multiprocess反而會變慢無關 吧(看第6點)? ※ 編輯: tsaiminghan (220.136.107.184 臺灣), 04/27/2020 19:58:55

04/27 21:45, 4年前 , 6F
在linux下面跑,最花時間的是24行,拿掉就0.1x秒
04/27 21:45, 6F

04/27 21:53, 4年前 , 7F
不過滿不固定的,你原始的code有時候也會0.1X秒
04/27 21:53, 7F

04/27 21:55, 4年前 , 8F
如果你把self.func1移出a,最慢的情況會變成0.3X
04/27 21:55, 8F

04/27 21:57, 4年前 , 9F
印象位置multiprocess你傳object進去,他會複製整份
04/27 21:57, 9F

04/27 21:57, 4年前 , 10F
a,包含a.test 時間差異應該從這邊找應該會有些結果
04/27 21:57, 10F
我在windows上也試了,如你所說,如果把fun1移出class,會快很多。 我再試試看,謝謝。

04/27 22:55, 4年前 , 11F
map的時候會pickle method, 剛好你傳的是bound method
04/27 22:55, 11F

04/27 22:55, 4年前 , 12F
會把整個object一起pickle 然後傳到child process
04/27 22:55, 12F

04/27 22:55, 4年前 , 13F
又剛好pickle是在get的時候才call
04/27 22:55, 13F

04/27 22:56, 4年前 , 14F
你可以試試看print(len(pickle.dumps(self.func1)))
04/27 22:56, 14F

04/27 22:58, 4年前 , 15F
一開始想成copy on write
04/27 22:58, 15F
謝謝,我去找找pickle的資料看看 總結上面兩位的說法,時間是花在pickle obj,所以如果self.aa = OpenCC(..)時,連 OpenCC也會被pickle,所以如果有加join(),等multiprocess跑完,才有OpenCC,所以 OpenCC沒有被pickle。 因此multiprocess傳入的參數要盡量簡單,才不會有這問題囉? ※ 編輯: tsaiminghan (220.136.107.184 臺灣), 04/27/2020 23:42:02

04/29 00:08, 4年前 , 16F
你要考慮跑 process 起來的代價跟考慮他會活多久
04/29 00:08, 16F

04/30 23:54, 4年前 , 17F
樓樓上正解
04/30 23:54, 17F

05/04 22:00, 4年前 , 18F
文章代碼(AID): #1UfSoXIZ (Python)