作者查詢 / jun0325

總覽項目：發文 | 留言 | 暱稱

作者 jun0325 在 PTT [ C_and_CPP ] 看板的留言(推文), 共41則

限定看板：C_and_CPP

首頁

尾頁

[心得] CUDA 至 AMD HIP 分享

[ C_and_CPP ]31 留言, 推噓總分: +6

作者: mikemike1021 - 發表於 2021/08/18 21:43(4年前)

20^F推jun0325: OpenCL可以用在更多的device上(CPU, GPU, DSP等只要符08/24 00:19

21^F→jun0325: 合OpenCL規範)，HIP看起來只能用在AMD/NV的GPU上，我這08/24 00:19

22^F→jun0325: 樣理解對嗎？08/24 00:19

[問題] thread會將值存在register中不寫回?

[ C_and_CPP ]25 留言, 推噓總分: +4

作者: Arton0306 - 發表於 2018/10/14 18:46(7年前)

23^F推jun0325: 用volatile應該就會讓compiler每次都會寫回memory了吧10/16 22:12

[問題] cuad block維度的問題

[ C_and_CPP ]9 留言, 推噓總分: +1

作者: jimmy8069 - 發表於 2017/09/13 16:45(8年前)

8^F→jun0325: https://en.m.wikipedia.org/wiki/CUDA spec有說block的x09/15 15:47

9^F→jun0325: y z的maximum09/15 15:47

[問題] CUDA Memcpy相關問題

[ C_and_CPP ]26 留言, 推噓總分: +1

作者: v00623 - 發表於 2017/07/12 17:25(9年前)

23^F推jun0325: 加個cudaThreadSynchronize();確保GPU和CPU之間的07/16 14:04

24^F→jun0325: data consistency。你變成data size變成200，有可能是GPU07/16 14:05

25^F→jun0325: 算太久，你又沒保證data consistency，所以CPU讀到不正確07/16 14:06

26^F→jun0325: 的資料07/16 14:06

[問題] CUDA Stream, Hyper-Q方法

[ C_and_CPP ]12 留言, 推噓總分: +4

作者: v00623 - 發表於 2017/06/20 15:07(9年前)

4^F推jun0325: stream是一個software queue的概念如果你把兩個kernel b06/20 19:58

5^F→jun0325: ound在同一個stream 那就會sequential執行如果在不同str06/20 19:58

6^F→jun0325: eam就會用spatial的方式來將兩個kernel 綁到SM上06/20 19:58

7^F→jun0325: 建議直接爬gpu-sim怎麼運作的會更清楚06/20 20:28

[問題] OpenCL GPU benchmark

[ C_and_CPP ]6 留言, 推噓總分: +3

作者: fishlinghu - 發表於 2016/10/22 08:37(9年前)

1^F推jun0325: 我記得intel的內顯都是有LLC，所以都是看到同樣的memory10/24 16:03

2^F→jun0325: address，所以才測不出來memory copy的時間10/24 16:04

[討論] 讓programmer控制variable所需的bit數？

[ C_and_CPP ]186 留言, 推噓總分: +32

作者: Caesar08 - 發表於 2016/07/30 14:55(10年前)

158^F→jun0325: 硬體沒有難不難做...只是要看compiler和硬體要如何合作罷08/17 01:10

159^F→jun0325: 了。就算你新增了bit field的語意，要讓它跑在原本的CPU08/17 01:10

160^F→jun0325: 也是可以，就只是讓compiler增加原本的工作去support你要08/17 01:10

161^F→jun0325: 的語意，用原本的ISA去拼出你想要的functionality，反之08/17 01:10

162^F→jun0325: 亦然，可以extend ISA減少compiler的工作。08/17 01:10

163^F→jun0325: 不過要讓不同長度的變數pack到同一個register裡，你要讓08/17 01:18

164^F→jun0325: 硬體如何對其中一個變數做運算XD。我能想到最接近的概念08/17 01:18

165^F→jun0325: 就是SSE了。08/17 01:18

166^F→jun0325: 可以參考這http://goo.gl/ahdejN讓你對register packing08/17 01:23

167^F→jun0325: 會比較有概念08/17 01:23

[問題] CUDA的核心與block分配問題

[ C_and_CPP ]64 留言, 推噓總分: +6

作者: Yan5566 - 發表於 2015/11/06 11:08(10年前)

50^F推jun0325: 一個SM的warp scheduler可以schedule來自在不同block的05/07 21:02

51^F→jun0325: warp (SM裡面的warp scheduler可能不只一個要看硬體)05/07 21:03

52^F→jun0325: 基本上warp scheduler的policy最簡單也最好用的是GTO05/07 21:04

53^F→jun0325: (大部分情況下比RR好) 回歸正題，一個block"的確"要等到05/07 21:05

54^F→jun0325: 最後一個warp執行完，才會release他所佔的資源05/07 21:05

55^F→jun0325: 這也就是為什麼在寫CUDA的時候，盡量要讓每個thread的05/07 21:06

56^F→jun0325: 工作量都要相近，這樣才能盡可能在同一個時間點做完05/07 21:06

57^F→jun0325: 早點release resource給下一個block使用05/07 21:07

58^F→jun0325: W大所說的可以先偷塞新的block的warp進去SM05/07 21:08

59^F→jun0325: 但這就增加了硬體對於SM管理資源的複雜度05/07 21:09

60^F→jun0325: 你要特別建一個表去記錄那個快結束block中的warp05/07 21:10

61^F→jun0325: 分別占了SM上面的那些資源(Register, Shared Memory)05/07 21:11

62^F→jun0325: 因為原本SM對於資源的控管是以block granularity05/07 21:14

63^F→jun0325: 如果要達成W大所說的那個方式，就要對每個"warp"都要去05/07 21:15

64^F→jun0325: 記錄他們所站的資源05/07 21:15

首頁

尾頁