作者查詢 / HsiaoCC
作者 HsiaoCC 在 PTT [ VideoCard ] 看板的留言(推文), 共31則
限定看板:VideoCard
看板排序:
全部VideoCard31Oversea_Job24HCSH11AfterPhD9CSI8EAseries7PhD7FORMULA16PC_Shopping6PCSH91_3056HCSH_9th_3145LArc-en-Ciel5CSSE4DreamTheater4MacGyver4Detective3NUMB3RS3Audiophile2C_and_CPP2C_Sharp2EuropeanCar2Fortran2LCD2RockMetal2Sagittarius2A1-GP1Akimine1car1consumer1CYCU_Talk1FJU-Laws911Gemini1MOD1Motorsports1NCCU05_PHILO1NCIS1SWhite1Tech_Job1<< 收起看板(38)
首頁
上一頁
1
下一頁
尾頁
1F推:google了一下每個block的上限就是總共16K,超過應該不能跑06/03 10:11
2F→:我沒寫過CUDA,但OpenCL的情況是會直接return error06/03 10:13
3F→:若你指的是所有threads總共用16K,那情況會跟你寫的一樣~06/03 10:15
4F→:眼殘,應該是若每個block裡的threads共用了16K~~~06/03 10:17
3F→:就我對它的了解,只要在resource允許情況下,看起來沒差…06/03 01:39
4F→:但是,block內之threads需要能sync,碰到需要sync的比較傷06/03 01:40
7F→:跑不同kernel,似乎是scheduling的問題,但是我沒實際試過06/03 01:45
8F→:Fermi whitepaper 上有提到多個 kernel 時排程的改進~~06/03 01:45
11F→:拿之前跑的數據算了一下,切block效能影響是有,但有限~~06/03 01:50
12F→:只要讓每個block保持>=64 threads,切換 block 對效能的06/03 01:50
14F→:影響,大概只有10ns不到…06/03 01:50
16F→:切block,我用OpenCL在GTX285上測,感覺效率影響不明顯:~~06/03 01:57
17F→:反而是要怎麼找到上百個threads在同一個SM上run比較麻煩06/03 01:58
18F→:不過如果block切太少,反而造成有SM idle這樣不更慘?:~~06/03 02:00
1F→:發文時間是 4/1 …05/17 23:48
6F推:就目前的 larrabee 看起來也是耗電跟發熱怪物…03/13 16:20
7F→:我倒覺得弄成精簡版的指令集會讓這情況好些…03/13 16:20
8F→:現階段的larrabee看起來是支援完整pentium指令集+avx ext03/13 16:20
9F→:光是解碼x86 instr就得花上不少時間跟電路了~~~03/13 16:21
10F→:另外一個有趣的點是,繼續用ring做互連真的好嗎?03/13 16:22
11F→:當處理器數量高過一定數量,ring其實效率不太好 ~___~03/13 16:23
2F推:還可以再來個外掛加強版 GT500KR 是吧… (誤)02/02 11:43
2F推:我筆電上的 HD3470 在 win7 下的 win aero 是正常的…01/13 13:44
3F→:理論上應該都能跑才是,連Intel GMA 4500 都能跑了…01/13 13:45
2F推:Niagra 是 SUN 的吧?一代單核4 threads,二代 8 thrds12/03 16:27
3F推:IA64是 不錯的東西,可惜生錯時代…12/03 16:29
8F推:Niagara一代八個core share一個fp,二代每個core一個fp12/04 00:42
9F→:裡面的fp其實是用來支援sparc vis 2.0 instr set ...12/04 00:43
10F→:覺得把他視為跟 intel mmx/sse 之流會比當他想搶GPU看適合12/04 00:43
11F→:GPU有太多需要fp的地方,niagara這樣的配置會炸…12/04 00:44
29F推:i5-750 + 5850 特效全開 1680x1050 還滿順的… XD10/14 07:33
首頁
上一頁
1
下一頁
尾頁