作者查詢 / freef1y3
作者 freef1y3 在 PTT [ C_and_CPP ] 看板的留言(推文), 共77則
限定看板:C_and_CPP
看板排序:
全部Gossiping9464Tech_Job823ask-why329joke156PublicIssue84C_and_CPP77Hsinchu71Militarylife67Soft_Job59NSwitch54Physics51AfterPhD49Jinmen42hypermall40Hunter39ONE_PIECE35FuMouDiscuss33logic29ask28NetRumor21Military20HatePolitics19biker17Prob_Solve15Programming15PhD14home-sale13NCTU_TALK12Steam10Suckcomic10teeth_salon10LivingGoods9Bunco8Inference8Math8GO7Kaohsiung7Little-Games7NDS7NTU7Salary7MobileComm6PublicServan6share6Doraemon5paranormal5C_Chat4EZsoft4LAW4marvel4rent-exp4SouthPark4media-chaos3RealPlaying3Road_Running3SMSlife3Teacher3ChangHua2Emulator2Falcom2FongShan2IA2Key_Mou_Pad2Old-Games2puzzle2AntiVirus1ASIA-uni1BigBanciao1car1CFantasy1DYU1Hate1HsinTien1iOS1Isayama1KS91-3191L_TalkandCha1LCD1Linux1Marginalman1movie1NARUTO1NCHU-MEgradu1Notebook1NTUE-EPC-981NTUST-ET-B931PingTung1PSP-PSV1Sony-style1Stock1StupidClown1swim1Violation1W-Philosophy1watch1WomenTalk1<< 收起看板(96)
15F→: a*=和a--之間並没有sequence point隔開,所以計算順序没04/22 12:45
16F→: 有規定04/22 12:45
17F→: 發現下面有人回了XDD04/23 00:14
36F→: 先手動優化轉出來的C++, 再手動優化C++轉出來的ASM07/05 23:09
37F→: 手動優化也要分pass的概念07/05 23:10
22F→: B應該是int [2][3]沒錯, 不過有一些吊詭的點04/26 15:44
23F→: 1. 你不能寫 int C[2][3]; C = B;04/26 15:44
24F→: 2. void f(int B[2][3]) {...} 那在f裡B會變成int(*)[3]04/26 15:45
11F→: 用 int (*ptr)[N] 來接 int a[M][N] 就不用 malloc 兩層01/11 23:37
12F→: 不過 CUDA 上 N 只能是常數的樣子01/11 23:46
3F→: 把timeout設大一點看看 https://goo.gl/xzmS9H10/11 15:31
4F→: 其實我覺得connection timeout應該是不同的東西10/11 20:09
5F→: 從那區也有port來看 應該不是display driver的timeout10/11 20:11
6F→: 不過我沒用過新版 你可能要自己找一下它移到哪裡了10/11 20:14
1F推: 推推09/25 23:19
32F→: 才不告訴你雷~09/25 12:22
18F→: 那題目不會是故意在模仿原始人講話吧05/18 16:44
12F→: 要把編譯器改成nvcc吧 (如果可以改的話)12/09 13:44
3F→: 如果要確認是 benchmark 還是 gpgpu-sim 的問題09/20 10:44
4F→: 我會建議用真正的 GPU 跑一次看看09/20 10:44
5F→: block 和 thread 數量這有時候是跟 benchmark 有關的09/20 10:45
6F→: 甚至有的 CUDA 程式必須 block 大小是 2 的次方才能跑09/20 10:46
7F→: 多個小 block 比少數大 block 好09/20 14:16
8F→: 我會猜是因為 __syncthreads() 造成的 overhead09/20 14:17
9F→: 若是 occupancy 的關係,應該多個小 block 會比較差09/20 14:18
10F→: 但是看這 IPC 的差異,執行時間似乎不該差這麼多09/20 14:19
11F→: 除非執行的 Instruction 總數也會隨著 block size 改變09/20 14:20
12F→: 若你的學校有授權 visual studio,且你有實體顯示卡09/20 14:23
13F→: 可用 nvidia visual profiler 測測看09/20 14:23
14F→: 我沒用過 gpgpu-sim,所以這方面的問題就無法回答了09/20 14:25