作者查詢 / jun0325
作者 jun0325 在 PTT 全部看板的留言(推文), 共164則
限定看板:全部
看板排序:
4F推: 台元++07/19 00:25
23F推: 加個cudaThreadSynchronize();確保GPU和CPU之間的07/16 14:04
24F→: data consistency。你變成data size變成200,有可能是GPU07/16 14:05
25F→: 算太久,你又沒保證data consistency,所以CPU讀到不正確07/16 14:06
26F→: 的資料07/16 14:06
4F推: stream是一個software queue的概念 如果你把兩個kernel b06/20 19:58
5F→: ound在同一個stream 那就會sequential執行 如果在不同str06/20 19:58
6F→: eam就會用spatial的方式來將兩個kernel 綁到SM上06/20 19:58
7F→: 建議直接爬gpu-sim怎麼運作的會更清楚06/20 20:28
19F推: 同學詳細推01/03 13:39
1F推: 我記得intel的內顯都是有LLC,所以都是看到同樣的memory10/24 16:03
2F→: address,所以才測不出來memory copy的時間10/24 16:04
11F推: S去年開始7萬10/14 15:32
8F→: HR是說美股不用扣稅10/13 01:06
39F→: 謝謝大家熱列回復,結果是我自己搞錯了,漲的部份不會扣10/13 09:18
40F→: 稅,跌的也不會吐給你10/13 09:18
20F噓: 113EE是電子 ECE才是電機09/08 07:54
158F→: 硬體沒有難不難做...只是要看compiler和硬體要如何合作罷08/17 01:10
159F→: 了。就算你新增了bit field的語意,要讓它跑在原本的CPU08/17 01:10
160F→: 也是可以,就只是讓compiler增加原本的工作去support你要08/17 01:10
161F→: 的語意,用原本的ISA去拼出你想要的functionality,反之08/17 01:10
162F→: 亦然,可以extend ISA減少compiler的工作。08/17 01:10
163F→: 不過要讓不同長度的變數pack到同一個register裡,你要讓08/17 01:18
164F→: 硬體如何對其中一個變數做運算XD。我能想到最接近的概念08/17 01:18
165F→: 就是SSE了。08/17 01:18
166F→: 可以參考這http://goo.gl/ahdejN讓你對register packing08/17 01:23
167F→: 會比較有概念08/17 01:23
9F推: 我大06/17 14:55
10F→: 35cm06/17 14:56