作者查詢 / jun0325

總覽項目: 發文 | 留言 | 暱稱
作者 jun0325 在 PTT [ C_and_CPP ] 看板的留言(推文), 共41則
限定看板:C_and_CPP
首頁
上一頁
1
下一頁
尾頁
[心得] CUDA 至 AMD HIP 分享
[ C_and_CPP ]30 留言, 推噓總分: +6
作者: mikemike1021 - 發表於 2021/08/18 21:43(2年前)
20Fjun0325: OpenCL可以用在更多的device上(CPU, GPU, DSP等只要符08/24 00:19
21Fjun0325: 合OpenCL規範),HIP看起來只能用在AMD/NV的GPU上,我這08/24 00:19
22Fjun0325: 樣理解對嗎?08/24 00:19
[問題] thread會將值存在register中不寫回?
[ C_and_CPP ]25 留言, 推噓總分: +4
作者: Arton0306 - 發表於 2018/10/14 18:46(5年前)
23Fjun0325: 用volatile應該就會讓compiler每次都會寫回memory了吧10/16 22:12
[問題] cuad block維度的問題
[ C_and_CPP ]9 留言, 推噓總分: +1
作者: jimmy8069 - 發表於 2017/09/13 16:45(6年前)
8Fjun0325: https://en.m.wikipedia.org/wiki/CUDA spec有說block的x09/15 15:47
9Fjun0325: y z的maximum09/15 15:47
[問題] CUDA Memcpy相關問題
[ C_and_CPP ]26 留言, 推噓總分: +1
作者: v00623 - 發表於 2017/07/12 17:25(6年前)
23Fjun0325: 加個cudaThreadSynchronize();確保GPU和CPU之間的07/16 14:04
24Fjun0325: data consistency。你變成data size變成200,有可能是GPU07/16 14:05
25Fjun0325: 算太久,你又沒保證data consistency,所以CPU讀到不正確07/16 14:06
26Fjun0325: 的資料07/16 14:06
[問題] CUDA Stream, Hyper-Q方法
[ C_and_CPP ]12 留言, 推噓總分: +4
作者: v00623 - 發表於 2017/06/20 15:07(7年前)
4Fjun0325: stream是一個software queue的概念 如果你把兩個kernel b06/20 19:58
5Fjun0325: ound在同一個stream 那就會sequential執行 如果在不同str06/20 19:58
6Fjun0325: eam就會用spatial的方式來將兩個kernel 綁到SM上06/20 19:58
7Fjun0325: 建議直接爬gpu-sim怎麼運作的會更清楚06/20 20:28
[問題] OpenCL GPU benchmark
[ C_and_CPP ]6 留言, 推噓總分: +3
作者: fishlinghu - 發表於 2016/10/22 08:37(7年前)
1Fjun0325: 我記得intel的內顯都是有LLC,所以都是看到同樣的memory10/24 16:03
2Fjun0325: address,所以才測不出來memory copy的時間10/24 16:04
[討論] 讓programmer控制variable所需的bit數?
[ C_and_CPP ]186 留言, 推噓總分: +32
作者: Caesar08 - 發表於 2016/07/30 14:55(7年前)
158Fjun0325: 硬體沒有難不難做...只是要看compiler和硬體要如何合作罷08/17 01:10
159Fjun0325: 了。就算你新增了bit field的語意,要讓它跑在原本的CPU08/17 01:10
160Fjun0325: 也是可以,就只是讓compiler增加原本的工作去support你要08/17 01:10
161Fjun0325: 的語意,用原本的ISA去拼出你想要的functionality,反之08/17 01:10
162Fjun0325: 亦然,可以extend ISA減少compiler的工作。08/17 01:10
163Fjun0325: 不過要讓不同長度的變數pack到同一個register裡,你要讓08/17 01:18
164Fjun0325: 硬體如何對其中一個變數做運算XD。我能想到最接近的概念08/17 01:18
165Fjun0325: 就是SSE了。08/17 01:18
166Fjun0325: 可以參考這http://goo.gl/ahdejN讓你對register packing08/17 01:23
167Fjun0325: 會比較有概念08/17 01:23
[問題] CUDA的核心與block分配問題
[ C_and_CPP ]64 留言, 推噓總分: +6
作者: Yan5566 - 發表於 2015/11/06 11:08(8年前)
50Fjun0325: 一個SM的warp scheduler可以schedule來自在不同block的05/07 21:02
51Fjun0325: warp (SM裡面的warp scheduler可能不只一個要看硬體)05/07 21:03
52Fjun0325: 基本上warp scheduler的policy最簡單也最好用的是GTO05/07 21:04
53Fjun0325: (大部分情況下比RR好) 回歸正題,一個block"的確"要等到05/07 21:05
54Fjun0325: 最後一個warp執行完,才會release他所佔的資源05/07 21:05
55Fjun0325: 這也就是為什麼在寫CUDA的時候,盡量要讓每個thread的05/07 21:06
56Fjun0325: 工作量都要相近,這樣才能盡可能在同一個時間點做完05/07 21:06
57Fjun0325: 早點release resource給下一個block使用05/07 21:07
58Fjun0325: W大所說的可以先偷塞新的block的warp進去SM05/07 21:08
59Fjun0325: 但這就增加了硬體對於SM管理資源的複雜度05/07 21:09
60Fjun0325: 你要特別建一個表去記錄那個快結束block中的warp05/07 21:10
61Fjun0325: 分別占了SM上面的那些資源(Register, Shared Memory)05/07 21:11
62Fjun0325: 因為原本SM對於資源的控管是以block granularity05/07 21:14
63Fjun0325: 如果要達成W大所說的那個方式,就要對每個"warp"都要去05/07 21:15
64Fjun0325: 記錄他們所站的資源05/07 21:15
首頁
上一頁
1
下一頁
尾頁