作者查詢 / lgen7604
作者 lgen7604 在 PTT [ C_and_CPP ] 看板的留言(推文), 共116則
限定看板:C_and_CPP
看板排序:
1F推:你並沒有把所有的double都改完 請把smooth_global和03/03 22:02
2F→:smooth_shared內的0.25都改為0.25f03/03 22:02
3F推:還有message的line73指的是.ptx檔 不是.cu檔03/03 22:05
1F推:嗯 的確是符合條件03/03 02:04
3F推:你看看設定跟我寫的有沒有一樣?03/03 02:44
15F→:input矩陣是512*512還算親切的大小 (511可以分解為73*7)02/24 07:10
16F→:如果是510*510該怎麼處理才好? 像這種case就是做參數化時02/24 07:13
17F→:要特別注意的地方了02/24 07:14
20F→:寫code的想法這個問題 我只能說...經驗吧 看得多想得多02/25 01:35
21F→:碰到問題的時候想法自然就會出來了02/25 01:35
22F→:寫CUDA要特別注意的就是parallel的觀念了 和一般寫C或C++02/25 01:36
23F→:不一樣 要考慮如何把問題分割給很多的block和thread處理02/25 01:36
24F→:還有每個block和thread該負責什麼部份 特別是參數化時 要02/25 01:36
25F→:注意矩陣的dimension 還有boundary的問題02/25 01:37
26F→:如果要考慮performance那問題就多了= = 建議可以看看02/25 01:48
27F→:nVIDIA官方的CUDA programming guide 應該會有幫助的02/25 01:49
1F推:device上的code是不能用malloc的02/21 19:04
3F推:先在host把空間malloc好 再呼叫CUDA搬移矩陣02/21 20:09
6F推:因為device不能使用malloc 所以A,B,C都由host做malloc02/21 20:20
7F→:之後的矩陣搬移才交給CDUA處理02/21 20:20
1F推:光看這段看不出有什麼問題 我猜大概是跟dimension有關02/21 20:24
1F→:沒有bitonic_kernel.cu沒辦法幫你測試啊02/10 21:35
4F→:其實結果用4x3的矩陣就存得下了 只是處理起來會比較麻煩02/01 14:23
5F→:如果想要方便處理的話 就轉換到4x4的矩陣吧02/01 14:24
1F推:GJ 大推 (limits.h是定義變數特性的header,可參考wiki)01/18 02:56
6F→:exp(1000i)的問題 andyjy12大已經解了 至於3x3的矩陣01/10 12:50
7F→:a[0][0] a[0][1] a[0][2] 把a[0][0]和a[2][2]交換01/10 12:50
8F→:a[1][0] a[1][1] a[1][2] 把a[0][2]和a[2][0]交換01/10 12:50
9F→:a[2][0] a[2][1] a[2][2] 就可以了01/10 12:50
2F推:FFTW真的是很不錯 不過如果實驗常要做大量的DFT運算 而且01/10 13:16
3F→:GPU也支援CUDA的話 可以考慮看看CUFFT01/10 13:17
4F→:比較資料有一點舊 不過可以參考看看 http://0rz.com/dEqo01/10 13:17