Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?

看板PC_Shopping作者 (3d)時間10月前 (2023/07/03 10:28), 10月前編輯推噓1(6536)
留言47則, 11人參與, 10月前最新討論串2/2 (看更多)
※ 引述《hugh509 ((0_ 0))》之銘言: : 先說我不懂AI運算 : 只是看了林亦的新影片 : https://youtu.be/UsfmqTb2NVY
就鬼扯,我也懶的噴他。現在老黃是遙遙領先所有人,AI全吃,沒什麼好爭辯的。 現在所謂的DL,第一需要的是運算,第二才是記憶體頻寬。 M2Ultra的gpu就27.2tflops(fp32),跟3080差不多,但ampere有兩倍的(fp16+fp32accumulate)還有4x的(fp16)。現在fp16訓練就很夠了,擔心你可以用fp16+fp32模式,那也是2x你m2 ultra。 https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf https://tinyurl.com/yuak5w5d 4090是82.6tflops(fp32),330.3tflops(fp16)。m2ultra連車尾都看不到,可憐啊。 然後M2Ultra的31.6tops,那應該是int8無誤如果是int4那就更可憐。4090是660.6(int8)tops與1321.2(int4)tops。這已經是被超車好幾十圈了。(tops是inference用的) H100 datasheet https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet https://tinyurl.com/bdfuutbe h100 pcie是最低階的 756tflops(tf32) 1513tflop(fp16) h100是狠狠的虐了所有人包含a100。2x~4x(a100) https://www.mosaicml.com/blog/amd-mi250 AMD的mi250不到a100的80%,mi300的specs其實跟mi250差不多,mi300主要是apu功能。 只有google的tpu跟intel的gaudi2跟a100有輸有贏。 https://mlcommons.org/en/training-normal-30/ gaudi2在gpt3的訓練大概是h100的1/3性能。 intel為什麼要取消rialto bridge?現在ai當道,fp64強的hpc架構根本毫無用處。AMD因為只有mi300所以只能硬上了,但383tflops(fp16)要怎麼跟1500+tflops的h100比? intel現在把資源集中在gaudi3/4,期望2年內可以看到老黃的車尾。 有人以為老黃只是因為cuda軟體贏。其實nn很容易移植到其它架構,老黃是硬體大贏+長期耕耘ai。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.249.214 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1688351283.A.3EF.html

07/03 10:54, 10月前 , 1F
MI300應該沒有跟250差不多 … apu只是其
07/03 10:54, 1F

07/03 10:54, 10月前 , 2F
中一個型號 mi300x才是全部gpu
07/03 10:54, 2F

07/03 11:01, 10月前 , 3F
mi300x我記得fp32沒輸h100多少喔
07/03 11:01, 3F

07/03 11:01, 10月前 , 4F
而且老黃是tensor core
07/03 11:01, 4F

07/03 11:01, 10月前 , 5F
現在也只有知道多少cu 不知道頻率
07/03 11:01, 5F
這根本是外行話。 nn本來就是tensor。 有756tflops的tf32幹麼用51tflops的fp32。 h100還有fp8,有些training有用到更是可怕的效率。

07/03 11:08, 10月前 , 6F
樓上射惹
07/03 11:08, 6F

07/03 11:50, 10月前 , 7F
反正老黃就是拿遊戲卡來撐場子
07/03 11:50, 7F

07/03 12:20, 10月前 , 8F
他計算速度主要是開大batch size
07/03 12:20, 8F

07/03 12:20, 10月前 , 9F
這樣確實不用算力也能有效加速運算效
07/03 12:20, 9F

07/03 12:20, 10月前 , 10F
07/03 12:20, 10F
夢裡什麼都有。AMD戰未來。

07/03 12:26, 10月前 , 11F
為何您會得出MI300跟MI250差不多的結論
07/03 12:26, 11F

07/03 12:26, 10月前 , 12F
呢?
07/03 12:26, 12F
沒有架構大改。現在公開的數據就沒有變動很大。 ※ 編輯: oopFoo (36.224.228.156 臺灣), 07/03/2023 12:47:14

07/03 13:02, 10月前 , 13F
先不管IA有沒有輸這麼多 那影片下面一堆人
07/03 13:02, 13F

07/03 13:03, 10月前 , 14F
贊同蘋果要超越老黃 看的我好像走錯世界線
07/03 13:03, 14F

07/03 13:26, 10月前 , 15F
現在一堆在講AI的都讓我覺得很莫名奇妙。
07/03 13:26, 15F

07/03 13:27, 10月前 , 16F
也有跑ai模型理論很好的人,對硬體完全不
07/03 13:27, 16F

07/03 13:28, 10月前 , 17F
懂,也是意見很奇杷。
07/03 13:28, 17F

07/03 13:35, 10月前 , 18F
你怎麼會期待讀資訊科的人就會組電腦
07/03 13:35, 18F

07/03 13:36, 10月前 , 19F
寫軟體只在意我的模型到底塞不塞的下去
07/03 13:36, 19F

07/03 13:51, 10月前 , 20F
尼484沒看懂我在講啥
07/03 13:51, 20F

07/03 13:51, 10月前 , 21F
h100 tf32 756
07/03 13:51, 21F

07/03 13:52, 10月前 , 22F
mi250 384
07/03 13:52, 22F

07/03 13:52, 10月前 , 23F
mi300x cu數4mi250的1.6倍
07/03 13:52, 23F

07/03 13:52, 10月前 , 24F
再加上頻率差 尼自己算一下
07/03 13:52, 24F

07/03 13:54, 10月前 , 25F
等等我好像看錯惹
07/03 13:54, 25F

07/03 13:58, 10月前 , 26F
384應該是mi300a的fp16 尷尬
07/03 13:58, 26F

07/03 14:48, 10月前 , 27F
不過就算目前mi300x有接近h100效能好了
07/03 14:48, 27F

07/03 14:48, 10月前 , 28F
DL公司應該還是會對他觀望
07/03 14:48, 28F

07/03 14:49, 10月前 , 29F
主要目前你各位還是太黏NVDA
07/03 14:49, 29F

07/03 16:15, 10月前 , 30F
H100強在BF16和自己開發的TF32,這兩
07/03 16:15, 30F

07/03 16:15, 10月前 , 31F
種場景都比CDNA3強很多
07/03 16:15, 31F

07/03 16:16, 10月前 , 32F
但mi300在int8和int4相對mi250有4倍以
07/03 16:16, 32F

07/03 16:16, 10月前 , 33F
上的提升
07/03 16:16, 33F

07/03 16:24, 10月前 , 34F
mi300有400tops,假設是int8好了,h100的
07/03 16:24, 34F

07/03 16:27, 10月前 , 35F
我看惹一下 mi300在fp16含以下應該
07/03 16:27, 35F

07/03 16:27, 10月前 , 36F
mi300x大概h100的一半附近
07/03 16:27, 36F

07/03 16:28, 10月前 , 37F
目前LLM運算應用效率4沒到50%才對
07/03 16:28, 37F

07/03 16:28, 10月前 , 38F
主要都卡ram
07/03 16:28, 38F

07/03 16:28, 10月前 , 39F
而且那是a100的狀態
07/03 16:28, 39F

07/03 16:29, 10月前 , 40F
a100->h100 都是80GB hbm2e->hbm3
07/03 16:29, 40F

07/03 16:30, 10月前 , 41F
tensor core運算效能多很多
07/03 16:30, 41F

07/03 16:30, 10月前 , 42F
能用到多少就很難說惹
07/03 16:30, 42F

07/03 16:32, 10月前 , 43F
寫錯mi250大概400tops。mi300大概1600tops
07/03 16:32, 43F

07/03 16:33, 10月前 , 44F
h100是3026tops,350w。mi300要?800w?
07/03 16:33, 44F

07/03 16:36, 10月前 , 45F
int8/int4這種inference的東東,xilinx有
07/03 16:36, 45F

07/03 16:39, 10月前 , 46F
比較划算的東東。MTL也有30?tops的vpu,這
07/03 16:39, 46F

07/03 16:40, 10月前 , 47F
一塊還有空間給IA兩家機會搶。
07/03 16:40, 47F
文章代碼(AID): #1aeZ8pFl (PC_Shopping)
文章代碼(AID): #1aeZ8pFl (PC_Shopping)