作者查詢 / hardman1110
作者 hardman1110 在 PTT [ C_and_CPP ] 看板的留言(推文), 共88則
限定看板:C_and_CPP
看板排序:
2F→: 是指launch.json下要多加 “miDebuggerPath”: path12/20 22:28
3F→: to gab?12/20 22:28
4F→: to gdb12/20 22:28
10F→: Test.cpp 編出的 test 可跑 也可 cmd line 下 gdb .12/20 23:25
11F→: /test跑完 另外我確實是用vscode remote連到Linux12/20 23:25
12F→: 上的docker12/20 23:25
14F→: 我是在a電腦開vscode連到b電腦 且直接連進b電腦上的12/21 00:38
15F→: docker(vscode 的plugin)12/21 00:38
16F→: SSH ip 是b電腦的12/21 00:43
2F→: 請問大大是要加在哪部份?02/01 22:27
3F→: nvcc 不支援-fPIC02/01 22:28
4F→: 如果是加在 .pdda_cuda.o前則是出現一樣錯誤02/01 22:36
7F→: L大~ 所以我得用nvcc 把.cu編成.so再用g++將其跟.cpp02/01 23:17
8F→: 編成最後的pdda.so?02/01 23:17
10F→: 謝謝L大 在nvcc加入-Xcompiler '-fPIC' -dc即可~~~02/02 10:56
2F→: u save my day~用extern "C"{}把內容包起來就好了~~01/18 15:16
2F→: 原因是什? 前面的同步不算嗎? 困惑中= =10/03 10:40
4F→: Do something 之後就不會更改值了10/03 11:27
5F→: 所以我才在一開始同步10/03 11:28
6F→: 就算繞回去應該再同步一次不是嗎?10/03 11:32
9F→: 所以我只要在使用前一刻同步就好囉?10/03 12:37
10F→: 還有在assign值前同步10/03 13:00
11F→: 已嘗試在assign前後都同步,但結果還是會錯(暈10/03 13:26
20F→: a1大 已補上github好讀版連結10/03 14:24
21F→: 我這邊純粹想讓多個thread 同時assign值 甭跑回圈10/03 14:25
24F→: 我想通了~抱歉 確實把y當執行緒切 每個thread y不同10/03 14:28
25F→: 純共用的話 感覺用register 就好 陣列大小不大10/03 14:30
29F→: 要在加速的話 好像還可以用surface memory來讀寫?10/03 14:55
30F→: 感謝各位大大指點10/03 14:56
3F→: 我確實用的是CUDA909/22 10:42
1F→: 抱歉自己耍蠢 主要是memory超過 global mem size09/14 17:49
2F→: 但說也奇怪 我create時沒有回傳錯誤09/14 17:49
2F→: 每列有相依 所以只好這樣09/05 20:10
3F→: 預期是GPU再慢 也會因爲1080列同09/05 20:10
4F→: 時算而大幅優化09/05 20:11
6F→: 已試過多執行緒等方式 想用GPU突破09/06 07:08
1F推: 感謝 所以opencl只是幫你切出平行化的"kernal"08/22 21:44
2F→: 裡面根本沒綁定array index 只是因為平行特性可以拿08/22 21:45
3F→: work item的編號當作array index >> 是這樣嗎?08/22 21:46
9F→: 我傳進去的陣列型態大小都不一樣,我該如何知道切了08/22 17:11
10F→: 多少kernal(work item) 然後每個work item包含每個08/22 17:12
11F→: 陣列的哪幾格?08/22 17:13
14F→: 查到clEnqueueNDRangeKernel可控制要切多少workitem08/22 17:26
16F→: 但每個workitem對應到陣列哪一段就不清楚原理了08/22 17:26
25F→: 這樣說起來我要index以哪個陣列為主就enqueue那個陣08/22 17:45
26F→: 列的size嚕?08/22 17:45
3F→: 感謝 那原本的設定方式問題是出在哪呢?06/28 13:06
4F→: 還有 這個設定方式release mode 也可以用?06/28 13:07