Re: [菜單] 200K深度學習機

看板PC_Shopping作者時間5年前 (2019/05/30 00:44), 4年前編輯推噓84(86252)
留言140則, 88人參與, 4年前最新討論串2/2 (看更多)
: 更新 :謝謝各位大大的建議,跟老闆討論過後預計朝請廠商報小型工作站 : 的單子,預算雖然說是沒有問題但也可能沒辦法買DGX@@,讓電蝦的 : 各位失望了 : 非常謝謝各位的建議,還請有點火氣上來的前輩們消消氣 原PO後來請廠商報小型工作站是聰明的決定 十萬的單子還上來求建議 表示對硬體的了解度沒有信心 雖然廠商也不一定懂 但讓廠商全權開規格 之後有問題廠商可以協助處理 廠商能除錯的資源還是比個人多些 上頭的人追究下來也有個廠商負責 100萬內的科研採購 雖然不用招標 但也總要有個廠商陪著跑文件 廠商多賺的錢就當服務費 省心 ==== 所以深度學習的機器到底要怎麼買? 剛好最近有些採購 也略有研究 以下是個人心得 不一定正確 在此做個筆記記錄 ==== 買電腦 第一先問預算 再問需求 但這次先問需求 真的需要一台GPU Server嗎? 在PC上開發模型,真正的大量資料上AWS、Azure、GCP、國網中心的雲端GPU做訓練 如果這樣的工作流不符合需求 (反正會有各種理由不行) 那也只好買台ML主機放地上了 如果預算沒有上限 (好幾個億花不完) 直接請廠商送NVDIA DGX Pod來就可以了 http://tinyurl.com/y3k63fo2 Easy Deployment of DGX Servers for Deep Learning 超Easy 預算不到億但超過千萬 DGX-2就在預算內 https://www.nvidia.com/zh-tw/data-center/dgx-2/ 但NVIDIA要求購買DGX-2的單位最好要先有DGX-1的經驗 預算超過500萬就能買一台DGX-1 https://www.nvidia.com/zh-tw/data-center/dgx-1/ 預算200萬上下你可以考慮買DGX Station https://www.nvidia.com/zh-tw/data-center/dgx-station/ 以上的價格都是我夢到的 詳細數字請打電話問業務 如果對於NV原廠機的配置不夠滿意 想要更換CPU RAM想加大點 儲存空間想調整 或是想把錢都砸在GPU 其他部分精簡 DELL HPE都有多GPU系列機器可客製化 嫌國外一線廠牌太貴 國內的華碩、麗台也都有GPU Server可以挑 怕被廠商坑可以先上DELL或HPE的美國官網點點配置 大概有個行情概念 錢能解決的問題都不是問題 最大的問題是沒有錢 沒錢的實驗室想買GPU Server來做深度學習 這時就要問情境了 是否願意犧牲機器穩定性、資料正確性來換取效能?? 實驗室有多少人要用? 同時用還是排隊用? 有沒有專人管理維護伺服器? 如果真的要自己進這個坑就繼續吧 經驗告訴我 多人同時使用一台GPU server體驗很糟的 不只GPU是資源 CPU核心、CPU快取、PCIe頻寬、記憶體頻寬、記憶體容量、storage IOPS 全部都是瓶頸 8個人同時用一台8 GPU的server 就算一個人限制一顆GPU 8個人全部卡死 所以GPU server的使用情境是 - 訓練資料量太大了 需要多張卡做多倍的加速 (舉例:只能接受8張卡train 3小時 無法接受1張卡跑24小時) - PC、HEDT的記憶體不夠 - 需要超多核心的CPU算力來做計算前處理 這時候又有人能管理伺服器(實驗室成員排隊不會吵架) 那可以買大台的server 一個人一個人輪流用 其他人只能等 推文裡有人買2xTITAN RTX主機45萬 若用不到512GB RAM或24GB VRAM或超多核心的算力 可以買5台9萬的PC 能用同時用的人更多 算力也更高 (2 GPU vs 5 GPU) ==== 最後才是考慮組裝個人電腦來用 那組裝深度學習的主機 零件怎麼挑呢? 我不知道版上有多少人真的在深度學習 說不定我也沒有玩過 上來唬爛一通 下面的解釋都是心得 也不一定對 就當參考 CPU 有人說深度學習主機的CPU不重要 我不認為不重要 或者說 不重要不代表可以忽視 不然隨便拿個i3或Xeon Bronze亮機就好 CPU快的主機還能拿來做其他運算 非深度學習無GPU加速的機器學習算法也可以跑 GPU運算是需要CPU送資料進去的 若CPU需要做些前處理 算力不夠會導致資料產出速度不足導致GPU閒置 另一個就是PCIe頻寬 多卡時有機會塞車 (推文有人問ML主機跟礦機差在哪 礦機基本上不需要PCIe頻寬 一小段資料送進GPU爆hash出來 ML主機是大量的資料通過GPU 還有神經網路的權重更新問題 頻寬需求不同) CPU的算力若要在高頻少核與低頻多核間選一個 我會選高頻少核 泛用性比較高 畢竟如果不是跑固定的商用軟體或開源軟體 很難確定平行化的效果如何 最後至少還有個單核硬上的選項 另外就是 我懷疑nvidia的驅動只有單核在跑 要是單核不夠力 GPU會比較慢 以上是推測 沒有直接證據 至於AMD CPU (先說明這是現在的狀況 2019/7/7後會不會改變我不知道) Zen架構與Skylake架構相比 浮點運算AMD就是弱勢 (4個128bit 兩個加法兩個乘法 vs 2個256bit加乘皆可) AVX 256bit AMD直接是Intel半速 更不用說要是程式用了Intel的編譯器或數學庫(MKL, MATLAB或numpy都會用到) 偵測到不是intel的CPU 直接執行相容性最高(最慢)的機器碼 AMD的CPU遇到奧步很難跑得比INTEL的快 至於HEDT平台 9980XE與2990WX我手上都有 版上隨便推人買2950X或2990WX是很不負責任的 我的建議是 除非你的程式在X399平台上測過真的比較快(或是一樣快但比較便宜) 不然買intel真的比較不會有性能問題 商人不是笨蛋 18核的9980XE與32核的2990WX才會沒什麼價差 實際測試這兩顆互有輸贏 如果你的程式是 - 多核平行化得很好 單核慢沒關係 - 有NUMA支援 不會卡RAM頻寬或CPU之間 - 浮點不重要 AVX 512沒差 且不會被intel軟體奧步 那2990WX有機會贏 但還是建議要測過再購買 (不到6萬就能體驗4路不對稱NUMA所帶來的各種奇葩效能問題 超值) RAM 通道插滿 越大越好 做正事的機器不建議用超頻記憶體 標準條很棒 2019年 記憶體需求超過64GB 只能選HEDT 超過128GB 只能選工作站 超過512GB 只能選Server 嚴格要求資料正確性請買ECC MB 主流平台挑選跟一般開菜單一樣 VRM散熱與設計挑一下 要是VRM供電不足 可能連維持全核Turbo都有問題 其他沒什麼重點 HEDT平台要看一下PCIe通道設計 針對ML需求會不會塞車 每張卡至少要x8 塞在CPU端或GPU端都會有影響 CPU散熱 i7-8700的原廠散熱沒有辦法在燒機下維持全核Turbo 4.3GHz 真的垃圾 比原廠散熱器好的都可以 GPU 重點來了 針對深度學習 第一要考慮的就是VRAM大小 VRAM決定了能放多複雜的模型下來算 (有人會說Unified Memory啊或是什麼NVLink合併記憶體的 會自己寫底層用這兩個功能的人就不會上來問問題了 Tensorflow可以開Unified Memory拿主記憶體硬跑 代價是效能剩10分之一 [PCIe x16頻寬約GDDR6 1/10] NVLink自動合併記憶體 我還沒看到Tensorflow或Pytorch有支援 至少我在V100上是開不出自動合併 會的人麻煩教學一下 手動將模型拆放在兩張又不會卡頻寬也是需要花時間調整的) 還有batch size能開多少(這個可以透過多卡增加) 如果只是玩票性質的深度學習 6GB VRAM應該都能試跑常見的模型 如果是拿來做事的 11GB VRAM的是首選 因此消費級能挑的卡有 11GB 1080ti 2080ti 12GB GTX TITAN X TITAN X TITAN Xp TITAN V 24GB TITAN RTX Quadro卡很貴 也沒有特別快 除非你想買Quadro RTX 8000有48GB VRAM 不然光看規格 我找不到買Quadro RTX 6000而不買TITAN RTX的理由 (其實有 Quadro RTX 6000是鼓風扇 多卡散熱比TITAN RTX好) Tesla卡是被動散熱沒有風扇 都是跟著設計過的機架出貨 就算搞到手裝在一般機殼也是直接燒掉 如果要使用多卡 一定要用渦輪扇版本的強制排氣 不然連跑幾個小時 直接熱死 再來要考慮的就是算力 如果會用半精度fp16訓練(AMP之類的) 有Tensor Core的TITAN RTX、2080ti、TITAN V有絕對優勢 (雖然2080ti的Tensor Core在fp16/fp32混和精度被老黃閹成半速 但還是很快) 只用fp32的話請直接看wiki Single precision欄位 https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units TITAN V與TITAN RTX比較 TITAN V是HBM 某些吃VRAM頻寬的模型計算速度上會快些 TITAN RTX的VRAM比較大且有NVLink NVLink的效果 有幫助但沒有很顯著 Puget Systems上關於GPU跑深度學習的測試文都可以看看 https://www.pugetsystems.com/search.php?query=+Machine+Learning TITAN V與TITAN RTX個人會選RTX 慢一點等就好 (沒用Tensor core速度根本沒差) 放不進VRAM連算都不用算 PCHome定價還比較便宜 Storage 都2019了 SSD必備吧 額外的硬碟、RAID或是NAS就看預算 另外NVMe組RAID 0不會增加隨機讀取IOPS 不要為了這個浪費錢 Power 如果放機器的地方沒有220V 組4卡機器可能要考慮一下 1500W推4張TU102+CPU其實很拚 ==== 最後是菜單 線上隨便點的 別真的拿去組 80K 深度學習文書PC CPU (中央處理器): Intel i9-9900K【8核/16緒】3.6GHz(↑5.0GHz)/16M/95W 15800 Cooler (散熱器): 利民 Silver Arrow T8 8根導管(6mm)/TY-143B*1/雙塔/高度15.8cm/TDP:320W 2400 MB (主機板): 技嘉 Z390 AORUS ELITE 翼力特(ATX/1H/I網/一體式檔板/註五年) 4890 RAM (記憶體): KLEVV(科賦) 16GB DDR4-2666/CL16 4x1888 7552 VGA (顯示卡): 技嘉 RTX2080Ti TURBO 11G(1545MHz/27.2cm/註四年) 36890 SSD (固態硬碟): 威剛 XPG SX8200Pro 1TB/M.2 PCIe 2280/讀:3500M/寫:3000M/TLC【五年保】附散熱片 4380 HDD (硬碟): Toshiba 6TB【企業級】128MB/7200轉/五年保(MG05ACA600E) 5390 PSU (電源供應器): 全漢 聖武士 650W/銅牌/全日系/DC-DC/5年免費/CPU主線:18AWG 1990 CHASSIS (機殼): 全漢 CMT240B 炫鬥士 黑 顯卡長37.3/CPU高17.9/壓克力透側/上開孔/ATX 1090 ==== 300K 深度學習入門PC 處理器 CPU: Intel i9-9980XE【18核/36緒】3.0G(↑4.4GHz)/24.75M/165W/無內顯【代理盒裝】 61000 主機板 MB: 華碩 WS X299 SAGE/10G(CEB/8*D4/雙I網-10G/2*M.2/1*U.2/三年) 21900 記憶體 RAM: 美光 Micron Crucial 16G DDR4-2666 8x2099 16792 固態硬碟 M.2|SSD: 三星Samsung 970 PRO NVMe 1TB/M.2 PCIe 讀:3500/寫:2700/MLC/五年保 13500 傳統內接硬碟HDD: Toshiba 10TB【企業級】256MB/7200轉/五年保(MG06ACA10TE) 9990 散熱器: 利民 Silver Arrow IB-E Extreme 8根導管(6mm)/雙塔/高度16cm/TDP:320W【VWX】 2890 顯示卡: 華碩 TURBO-RTX2080Ti-11G(1545MHz/26.9cm/註四年) 4x38990 155960 機殼: 海盜船 Carbide Air 540 黑 顯卡長31/CPU高17/SSD*6(2共用)/E-ATX 4490 電源供應器: 全漢 CANNON 2000W 雙8/全模/全日系/1年保固/六項保護/支援18組PCI-E 6+2PIN 12900 ==== 300K那組可再往上調整一階成自組工作站 CPU可換Xeon W-2195 MB可換ASUS WS C422 SAGE/10G RAM加到512GB VGA換成2x Titan RTX ==== 再往上就不要自組或白牌server了啦 驗證也是要錢的 廠商的人力服務支援都是錢 更高階的機器不是所有零件裝上去就會動的 散熱、供電、各零件相容性都是眉角 花了幾百萬經費買了不會動的機器 一定被教授砍死 這邊都還只有講到硬體 要是管理伺服器的人 軟體部分OS、CUDA driver等等設定無法自己來 還是要有個廠商在後面支援才好 啥都不懂買品牌機就對了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.16.145 ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1559148243.A.200.html

05/30 00:52, 5年前 , 1F
趕快推,免得被人說看不懂
05/30 00:52, 1F

05/30 00:53, 5年前 , 2F
推,尤其300k後直接call廠商是良心建議
05/30 00:53, 2F

05/30 00:55, 5年前 , 3F
NVMe要拉高隨機存取IOPS => 900P/905P
05/30 00:55, 3F
拉高IOPS的另一種說法是降低latency 唯一做法就是換Optane 8xSAMSUNG 970 PRO 1TB 贏不了900p 我測過了 過一個RAID還會增加延遲 IOPS反而下降 但容量 隨機寫 連續讀寫 還是有幫助 就看目的

05/30 01:04, 5年前 , 4F
05/30 01:04, 4F
※ 編輯: fo40225 (140.112.16.145), 05/30/2019 01:08:08

05/30 01:10, 5年前 , 5F
純c的caffe train快多了。
05/30 01:10, 5F

05/30 01:12, 5年前 , 6F
簡單來說.買intel
05/30 01:12, 6F

05/30 01:16, 5年前 , 7F
同一樓wwwww
05/30 01:16, 7F

05/30 01:20, 5年前 , 8F
深度解析
05/30 01:20, 8F

05/30 01:24, 5年前 , 9F
這篇可以m起來
05/30 01:24, 9F

05/30 01:44, 5年前 , 10F
Intel MKL奧步這個問題真的很大XD
05/30 01:44, 10F

05/30 01:44, 5年前 , 11F
不同的機器作不同的事,別再看跑分評論不同設計的系
05/30 01:44, 11F

05/30 01:44, 5年前 , 12F
統囉~
05/30 01:44, 12F

05/30 01:57, 5年前 , 13F
推!!@@
05/30 01:57, 13F

05/30 02:02, 5年前 , 14F
大佬來了 看得好爽
05/30 02:02, 14F

05/30 02:10, 5年前 , 15F
推用心
05/30 02:10, 15F

05/30 02:12, 5年前 , 16F
05/30 02:12, 16F

05/30 02:22, 5年前 , 17F
a跑比i快就說真香,比較慢就喊奧步,跟政治人物一樣
05/30 02:22, 17F

05/30 02:26, 5年前 , 18F
太專業
05/30 02:26, 18F

05/30 02:39, 5年前 , 19F
請問,i9 9900k與2697 V3,那顆CPU比較適合跑M.L?
05/30 02:39, 19F
要看情境 9900k就是小台的機器 64G RAM + 1~2GPU 2697v3應該是雙路大台的機器 爆幹大的RAM + 4~8GPU 大台的機器拆成小台給多人用 會比買一堆小台的給多人用起來慘 一堆小台的機器很難在需要大量算力時湊成一台大台的 (可以挑戰從eBay上買拆機100Gbps網卡組叢集 成功了功力++) 所以取決於你的需求

05/30 02:53, 5年前 , 20F
某樓不然你來換個說法阿
05/30 02:53, 20F

05/30 03:06, 5年前 , 21F
推經驗分享跟認真分析
05/30 03:06, 21F

05/30 03:08, 5年前 , 22F
05/30 03:08, 22F

05/30 03:09, 5年前 , 23F
這篇真的要推
05/30 03:09, 23F

05/30 03:15, 5年前 , 24F
簡介也能這麼精闢,推
05/30 03:15, 24F

05/30 03:21, 5年前 , 25F
同一樓
05/30 03:21, 25F

05/30 03:23, 5年前 , 26F
05/30 03:23, 26F

05/30 03:24, 5年前 , 27F
商用沒美國時間給你整個重寫 開源授權不給包 無解XD
05/30 03:24, 27F

05/30 03:34, 5年前 , 28F
05/30 03:34, 28F

05/30 03:39, 5年前 , 29F
05/30 03:39, 29F

05/30 03:39, 5年前 , 30F
優文 不推對不起自己
05/30 03:39, 30F

05/30 03:43, 5年前 , 31F
中文真的難,都說程式碼有針對i皇最佳化了還要護航
05/30 03:43, 31F

05/30 03:44, 5年前 , 32F
推112大佬
05/30 03:44, 32F

05/30 03:51, 5年前 , 33F
免費經驗分享真佛
05/30 03:51, 33F

05/30 03:57, 5年前 , 34F
05/30 03:57, 34F

05/30 03:58, 5年前 , 35F
mkl真的很機掰
05/30 03:58, 35F

05/30 04:26, 5年前 , 36F
解釋一下,最近剛買的450K的Server,只有個人使用,
05/30 04:26, 36F
還有 66 則推文
還有 2 段內文
05/30 12:09, 5年前 , 103F
超專業!
05/30 12:09, 103F

05/30 12:15, 5年前 , 104F
M文不待處理的意思嗎? 為啥要M這篇文 我以為是要=
05/30 12:15, 104F

05/30 12:18, 5年前 , 105F
05/30 12:18, 105F

05/30 12:25, 5年前 , 106F
一分錢一分貨
05/30 12:25, 106F

05/30 12:32, 5年前 , 107F
推,專業文
05/30 12:32, 107F

05/30 12:41, 5年前 , 108F
高端操作
05/30 12:41, 108F

05/30 13:01, 5年前 , 109F
MKL也不能說是奧步啦XD 這也是為啥MATLAB上面Intel
05/30 13:01, 109F

05/30 13:01, 5年前 , 110F
CPU會快一點。可是我覺的深度學習應用上,瓶頸不是
05/30 13:01, 110F

05/30 13:02, 5年前 , 111F
CPU算的東西,所以MKL的優勢是還好
05/30 13:02, 111F

05/30 13:55, 5年前 , 112F
要看只是沒最佳化 還是故意劣化XD
05/30 13:55, 112F

05/30 14:02, 5年前 , 113F
mkl就matlab/MMA app超爛的元兇啊 matlab怎麼處理
05/30 14:02, 113F

05/30 14:02, 5年前 , 114F
不清楚 聽說MMA打算拋棄mkl lock-in真的會破壞生態
05/30 14:02, 114F

05/30 14:20, 5年前 , 115F
良心建議
05/30 14:20, 115F

05/30 14:46, 5年前 , 116F
硬體公司都是用SW當marketing/綁使用者,對使用者算
05/30 14:46, 116F

05/30 14:46, 5年前 , 117F
免費啊 SIMD讚XD
05/30 14:46, 117F

05/30 14:47, 5年前 , 118F
反正錢是花在買硬體上不是嗎?XD
05/30 14:47, 118F

05/30 14:48, 5年前 , 119F
不然急著讓大家有平價的AVX512是好玩嗎?
05/30 14:48, 119F

05/30 15:35, 5年前 , 120F
其實我之前在ebay還是有看到有鼓風扇的Tesla,不過
05/30 15:35, 120F

05/30 15:35, 5年前 , 121F
是老的型號了
05/30 15:35, 121F

05/30 18:35, 5年前 , 122F
完全看不懂 但是推個
05/30 18:35, 122F

05/30 18:45, 5年前 , 123F
推專業大佬
05/30 18:45, 123F

05/30 19:08, 5年前 , 124F
05/30 19:08, 124F

05/30 19:18, 5年前 , 125F
05/30 19:18, 125F

05/30 19:18, 5年前 , 126F
8700是文書機嗎????
05/30 19:18, 126F

05/30 19:29, 5年前 , 127F
差不多吧...
05/30 19:29, 127F

05/30 19:51, 5年前 , 128F
05/30 19:51, 128F

05/30 20:53, 5年前 , 129F
05/30 20:53, 129F

05/30 21:03, 5年前 , 130F
AMD:我只設計CPU 沒錢優化 請自己來
05/30 21:03, 130F

05/30 22:03, 5年前 , 131F
乾貨 讚
05/30 22:03, 131F

05/30 23:55, 5年前 , 132F
8700十年之後也是文書機了..
05/30 23:55, 132F

05/31 09:44, 5年前 , 133F
05/31 09:44, 133F

05/31 10:18, 5年前 , 134F
05/31 10:18, 134F

05/31 22:15, 5年前 , 135F
你說的是用 nv 寫好的軟體在跑ML吧
05/31 22:15, 135F

05/31 22:15, 5年前 , 136F
真正自己在寫的人,根本不需要 nv 卡
05/31 22:15, 136F

05/31 22:16, 5年前 , 137F
我之前就直接 A 卡寫 opencl
05/31 22:16, 137F

05/31 22:17, 5年前 , 138F
CPU 也絕對是同時全部吃滿
05/31 22:17, 138F

05/31 22:18, 5年前 , 139F
那時候就會知道,單核效能完全無意義,看核心數就好
05/31 22:18, 139F
會用OpenCL全部自己來的大神 一定相當了解自己的程式需要什麼硬體資源 就不會上來問菜單了 但對於不懂的人寫出來的code 87%是需要單核效能 更不要說什麼花時間調整後 gcc + OpenBLAS + OpenCL @A+A 就能對抗 icc + MKL + CUDA @I+N 對於一般人來說還是太遙遠 ※ 編輯: fo40225 (140.112.16.145), 06/01/2019 00:58:38

06/01 20:47, 4年前 , 140F
可以中斷服務的應用,可以不用考慮Server。
06/01 20:47, 140F
※ 編輯: fo40225 (140.112.16.145 臺灣), 05/08/2020 18:46:01
文章代碼(AID): #1SxhRJ80 (PC_Shopping)
討論串 (同標題文章)
文章代碼(AID): #1SxhRJ80 (PC_Shopping)