[問題] CUDA不同block有辦法共享資料嗎?

看板C_and_CPP作者e40614 (e40614)時間11年前 (2013/11/28 10:38)推噓0(0推 0噓 10→)

留言10則, 2人參與討論串1/1

剛開始學cuda 最近在寫一些基本的矩陣乘法之前有利用過shared memory來寫tiling版本的乘法最近看到書上有提到另一種加速法就是利用rectangular tiles 假設矩陣乘法是M*N=P 其中block A需要利用到N1和M1 block B需要利用N2和M1 因為都需要利用到M1 所以我想讓A來load資料就好 B直接利用A所load的資料但問題是cuda的shared memory只能在相同block的threads共享請問有辦法可以讓不同block之間分享資料嗎? 或是有什麼其他可行的方法可以做到rectangular tiles ------------------------------------------------ 此外這種方法看起來好像不會比較快吧因為B要做計算還是需要等A LOAD完感覺只是把overhead降低並沒有把速度提升不知道我有沒有想錯 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.123.42 ※ 編輯: e40614 來自: 140.113.123.42 (11/28 18:41)

→

Feis

11/28 19:30, , 1^F

11/28 19:30, 1^F

→

Feis

11/28 19:31, , 2^F

11/28 19:31, 2^F

→

Feis

11/28 19:32, , 3^F

11/28 19:32, 3^F