Re: [閒聊] 關於30系列的cuda core?

看板PC_Shopping作者 (璇月)時間3年前 (2020/09/11 20:15), 3年前編輯推噓17(17015)
留言32則, 23人參與, 3年前最新討論串2/2 (看更多)
※ 引述《leon19790602 (())》之銘言: : 逛了一下對岸nga,有些文章提到: : 1.這個cuda數量是等效數量,實際物理上只有一半,只是現在安培架構吞吐指令數翻倍了 : ,並不是所有的指令都能合並吞吐,所以這麽寫其實是不合適的。 : 2.這次列出3090有一萬個,3080有8000+個 : 其實是不是有點類似於超線程的意思? : 每個物理core有兩個fp32計算單元 : 所以算力大約提升兩倍? : 實際上die里真正的物理核心只有/2這麽多? : 是的,所以70的CUDA/2的話,傳統性能可能還是打不過80ti,加上RTX才能達到老黃ppt : 寫的性能。 : 以上, : 分享一下不同的看法, : 我也不是對這塊專業領域的,如果最後有錯請勿見怪。 : 前幾天NV公佈了詳細的Ampere繪圖/遊戲卡架構資料 參考:https://tinyurl.com/y4luadcm 對於30系列遊戲卡新架構的設計明瞭許多 NV這次對於Ampere繪圖架構(GA102之後晶片)的改進 我覺得可以說相當高明,新架構FP32運算效能比上代大幅度提昇 不過NV這次新定義的CUDA數量也有引起一些討論 從過往近代NV的GPU來看,每一個CUDA流處理器 通常會包含一個FP32運算單元和一個INT32運算單元 https://i.imgur.com/EjVHF1r.jpg
上圖是Turing架構TU102的SM結構圖 一共有64個FP32單元和64個INT32單元 以及8個Tensor Core和1組RT Core 共用96KB的L1快取 https://i.imgur.com/tc4e5p3.jpg
這次Ampere架構GA102的SM結構圖 總共有64個FP32單元和64個改良的INT32單元 以及4個改良的第3代Tensor Core和1組第2代RT Core 共用的L1快取加大至128KB 這次架構奧妙之處在於加大規模改良的INT32單元 在執行INT32運算時,也能夠穿插同時執行FP32運算 有點類似像Intel CPU的超執行序調度設計 也有點像AMD過往推土機架構一模雙核(NV反過來增加浮點單元) 統計近年普遍的新3D遊戲 使用INT32的運算指令平均約佔FP32指令的1/3~1/4而已 與其讓INT32單元閒置,改良後讓它也能處理FP32運算 能夠進一步來提昇電晶體線路利用效率 這次的新架構設計,電晶體數只需增加約50%,功耗提高約40% 就能換來帳面理論值2倍的FP32運算效能 所以GA102的SM結構 若以過往一個FP32單元搭配一個INT32單元來看 和Turing一樣是每組SM有64個"CUDA" 但以FP32單元數量來看,因為INT32單元也具有FP32運算能力 NV認為可看作是128個FP32單元 也就是NV目前公佈30系列的CUDA數量了 這也解釋為何之前一些爆料者標出的CUDA規格數 實際上NV公佈30系列後的規格CUDA數卻是翻倍的 https://i.imgur.com/4C4FH8r.jpg
5248→10496 RTX3090 4352→8704 RTX3080 2944→5888 RTX3070 因為AIC板卡廠在初期拿到的資料也是用傳統CUDA數定義去計算 實際NV之後公佈的規格則用FP32單元數量來計算CUDA數 這次的設計 如果一款遊戲是大量使用FP32指令運算 那30系列相對於20系列顯卡提昇的幅度就非常大 如同NV發佈會上的效能數據 https://i.imgur.com/f0QBvZY.png
因30系列每SM的FP32處理能力理論值是20系列的二倍 但如果遊戲中使用INT32指令的比例愈高 那麼30系列領先20系列的幅度可能會被拉近 因為30系列每組SM中仍然是64個INT32單元 從之前B站偷跑的遊戲測試影片也能觀察到這現象 https://i.imgur.com/DuipsDM.png
有些遊戲領先的幅度較大,有些遊戲領先幅度相對較少 我覺得這次NV新架構是很有效率的設計 AMD和Intel未來的顯示卡 可能也可參考這樣的設計方向 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.187.96.230 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1599826553.A.76B.html

09/11 20:20, 3年前 , 1F
QQ這篇有點燒到我 出來溫度如果不是太誇張
09/11 20:20, 1F

09/11 20:20, 3年前 , 2F
還真的有點想換呢
09/11 20:20, 2F

09/11 20:22, 3年前 , 3F
這次新架構提昇效益很大 也算是彌補了使用三星製程
09/11 20:22, 3F

09/11 20:32, 3年前 , 4F
比較好奇這樣的騷操作 在機器學習有影響嗎QQ?
09/11 20:32, 4F

09/11 20:34, 3年前 , 5F
感謝解說
09/11 20:34, 5F

09/11 20:41, 3年前 , 6F
09/11 20:41, 6F

09/11 20:42, 3年前 , 7F
機器學習ㄧ般情況都是FP32在運算,所以效能相對20系
09/11 20:42, 7F

09/11 20:42, 3年前 , 8F
列應該會顯著提升
09/11 20:42, 8F
https://i.imgur.com/rThmqsm.jpg
這是Ampere架構運算卡GA100的SM結構圖 CUDA仍然是傳統獨立一組FP32單元和一組INT32單元 另外還配置獨立的FP64單元,共用192KB的L1快取 GA100的Tenser Core負責處理FP16、FP8、FP4...運算 還可以處理FP16/FP32的混合精度運算 所以這次繪圖晶片GA102特化FP32的設計 主要提昇的是FP32的運算效能 如果使用的環境以FP16運算為重,提昇效益可能就較有限 不過這次第三代的Tenser Core效率還是會比前代架構高

09/11 20:45, 3年前 , 9F
解說清楚 推一個
09/11 20:45, 9F

09/11 20:50, 3年前 , 10F
單8pin RTX3050 效能有2070s itx
09/11 20:50, 10F

09/11 20:50, 3年前 , 11F
短卡,我買兩張起來供
09/11 20:50, 11F

09/11 20:56, 3年前 , 12F
雖然不懂 但是看到遊戲+40%就夠了
09/11 20:56, 12F
※ 編輯: tint (218.187.96.230 臺灣), 09/11/2020 21:15:30

09/11 21:18, 3年前 , 13F
反正對一般人來說看到cuda暴增就覺得效能也是暴增
09/11 21:18, 13F

09/11 21:26, 3年前 , 14F
感謝解說,還以為製程提升足以讓CUDA翻倍+暴增太玄
09/11 21:26, 14F

09/11 21:26, 3年前 , 15F
內顯也能這樣搞嗎?
09/11 21:26, 15F

09/11 21:29, 3年前 , 16F
09/11 21:29, 16F

09/11 21:33, 3年前 , 17F
這次架構也幾乎是暴增了 原本int 32 跟fp32可以一起
09/11 21:33, 17F

09/11 21:33, 3年前 , 18F
開 但是int空閒可能太多 換成fp32完整一組 相當於
09/11 21:33, 18F

09/11 21:33, 3年前 , 19F
以前的兩倍了 不過對上一代增幅就稍微小一點點
09/11 21:33, 19F

09/11 21:36, 3年前 , 20F
等待3050不然就便宜找2060s 970該退休啦
09/11 21:36, 20F

09/11 21:38, 3年前 , 21F
有傳言10月就會有60了 可能中低階會比上一代的時間
09/11 21:38, 21F

09/11 21:38, 3年前 , 22F
差小一點點 早點出來 畢竟AMD主力會往那塊打 不可
09/11 21:38, 22F

09/11 21:38, 3年前 , 23F
能放空
09/11 21:38, 23F

09/11 22:16, 3年前 , 24F
影馳3080 5499羊 可以參考下 3080的價格了
09/11 22:16, 24F

09/11 23:05, 3年前 , 25F
以後遊戲廠應該會慢慢對這個優化
09/11 23:05, 25F

09/12 00:04, 3年前 , 26F
這代感覺太吃電,p@55
09/12 00:04, 26F

09/12 00:18, 3年前 , 27F
看遊戲嗎
09/12 00:18, 27F

09/12 00:18, 3年前 , 28F
不知道黑沙是吃FP32?
09/12 00:18, 28F

09/12 01:48, 3年前 , 29F
09/12 01:48, 29F

09/12 11:55, 3年前 , 30F
請教這篇看得出來對於影片轉檔輸出的幫助嗎
09/12 11:55, 30F

09/12 17:51, 3年前 , 31F
至少看起來對madvr幫助應該不小
09/12 17:51, 31F

09/12 21:56, 3年前 , 32F
原來是這樣 看懂了
09/12 21:56, 32F
文章代碼(AID): #1VMsfvTh (PC_Shopping)
文章代碼(AID): #1VMsfvTh (PC_Shopping)