[閒聊] Apple M1 Max 測試

看板PC_Shopping作者 (Sky)時間2年前 (2021/11/23 09:54), 2年前編輯推噓7(7023)
留言30則, 10人參與, 2年前最新討論串1/1
原文: https://tlkh.dev/benchmarking-the-apple-m1-max HN 討論:https://news.ycombinator.com/item?id=29310509 這篇文章挑了一些測試項目, 推測 M1 Max 在 100W 功耗有如此表現的原因。 他的結論是贏在記憶體頻寬夠大, 有10核心, 以及各種 co-processor (AMX, ANE, ...)幫忙 offload。 CPU<->MEM 100GB/s (單 thread), 200GB/s (多 thread), 對比 5600x 約 40GB/s GPU<->MEM 大約 200~300GB/s,最高 330GB/s CPU+GPU<->MEM 因為兩個共用記憶體,競爭後總和最高 360GB/s Zero-Copy: 理論上因為共用記憶體,GPU, CPU 分享資料應該很快 但是 TensorFlow Zero-copy Memory Access 卻和需要走 PCIE 的 5600X+3090 在同一數量級,可能M1在這部分沒做到硬體加速。 M1 Max 5600X+3090 CPU->GPU 48 30 GPU->CPU 19 19 因此可以看出在 memory-bound 工作+硬體加速有支援時,M1 Max 速度就很驚人 例如 NumPy 用上 GEMM 的工作就贏 5600x 一票 但是 SVD, VecMul, eigendecomp 這些就只是不相上下 5600x 在 HTTP server 這種無法加速的也領先 另外 M1 Max 靠著核心多的優勢,在 Pandas 某些項目領先。 TensorFlow GPU 的話效能只有 3090x 1/8,不過耗電也差不多 1/8 所以每瓦效能差不多。但是 M1 max 等於是有巨大記憶體的顯示卡: https://news.ycombinator.com/item?id=29311522 因此在需要算大量資料時還是有他的優勢 (例如 4k/8k 影片轉檔?) 以及一些 TensorFlow 工作也可以交給 ANE 去算 ANE只耗費 2-4w, 但可以做到 GPU 60% 左右的效能 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.235.116 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1637632456.A.05A.html ※ 編輯: SkyPlus (140.113.235.116 臺灣), 11/23/2021 09:54:31

11/23 10:38, 2年前 , 1F
他這個結果..還真的挺怪的
11/23 10:38, 1F

11/23 10:42, 2年前 , 2F
我也覺得怪,他沒解釋為什麼沒加速
11/23 10:42, 2F

11/23 10:43, 2年前 , 3F
還是可以和5600x不相上下
11/23 10:43, 3F

11/23 10:43, 2年前 , 4F
另外與其說是M1 Max 贏,不如說他
11/23 10:43, 4F

11/23 10:44, 2年前 , 5F
刻意挑贏很多的 case,再分析為何贏
11/23 10:44, 5F

11/23 10:45, 2年前 , 6F
他上面Numpy的比較我還滿感興趣的
11/23 10:45, 6F

11/23 10:45, 2年前 , 7F
但不太清楚他 5600x 沒有用MKL的是
11/23 10:45, 7F

11/23 10:45, 2年前 , 8F
什麼環境
11/23 10:45, 8F

11/23 10:46, 2年前 , 9F
Special Function 那邊 MKL 還特慢
11/23 10:46, 9F

11/23 10:47, 2年前 , 10F
算每瓦效能蠻怪的,如果m1 max給同
11/23 10:47, 10F

11/23 10:47, 2年前 , 11F
樣瓦數有可能跟3090一樣嗎?
11/23 10:47, 11F

11/23 10:48, 2年前 , 12F
那個每瓦效能一樣的部分...我們只能
11/23 10:48, 12F

11/23 10:48, 2年前 , 13F
讚嘆NV了XDD
11/23 10:48, 13F

11/23 10:49, 2年前 , 14F
Performance at different power le
11/23 10:49, 14F

11/23 10:49, 2年前 , 15F
vels 那段有說曲線比較像log成長
11/23 10:49, 15F

11/23 10:49, 2年前 , 16F
然後 M1 Max SVD/EigenDecomp 是真
11/23 10:49, 16F

11/23 10:50, 2年前 , 17F
的假的算的這麼慢啊?
11/23 10:50, 17F

11/23 10:50, 2年前 , 18F
就算瓦數無限制開,效能不是正比
11/23 10:50, 18F

11/23 11:04, 2年前 , 19F
給3090瓦數 效能不能一樣吧
11/23 11:04, 19F

11/23 11:04, 2年前 , 20F
瓦數和效能不是成正比
11/23 11:04, 20F

11/23 11:04, 2年前 , 21F
不然以前用ARM去堆不就每個屌打X86
11/23 11:04, 21F
※ 編輯: SkyPlus (140.113.235.116 臺灣), 11/23/2021 11:11:05

11/23 11:40, 2年前 , 22F
挺怪的
11/23 11:40, 22F

11/23 12:29, 2年前 , 23F
就有用到神經網路引擎的工具,才會
11/23 12:29, 23F

11/23 12:29, 2年前 , 24F
快很多
11/23 12:29, 24F

11/23 15:58, 2年前 , 25F
特化功能 x86就什麼都能打但是不精
11/23 15:58, 25F

11/23 15:58, 2年前 , 26F
就沒辦法同天秤比較
11/23 15:58, 26F

11/23 19:01, 2年前 , 27F
老黃能夠駕馭三星製成 高通不行 慘
11/23 19:01, 27F

11/23 22:51, 2年前 , 28F
為什麼體積不用比?
11/23 22:51, 28F

11/24 01:02, 2年前 , 29F
沒事,問就是信仰,讓我們看M1腳踢
11/24 01:02, 29F

11/24 01:02, 2年前 , 30F
5600、拳打3060,信仰讓人偉大
11/24 01:02, 30F
文章代碼(AID): #1Xd4d81Q (PC_Shopping)