Re: [菜單] 200K深度學習機

看板PC_Shopping作者fo40225時間5年前 (2019/05/30 00:44)推噓84(86推 2噓 52→)

留言140則, 88人參與討論串2/2 (看更多)

: 更新：謝謝各位大大的建議，跟老闆討論過後預計朝請廠商報小型工作站 : 的單子，預算雖然說是沒有問題但也可能沒辦法買DGX@@，讓電蝦的 : 各位失望了 : 非常謝謝各位的建議，還請有點火氣上來的前輩們消消氣原PO後來請廠商報小型工作站是聰明的決定十萬的單子還上來求建議表示對硬體的了解度沒有信心雖然廠商也不一定懂但讓廠商全權開規格之後有問題廠商可以協助處理廠商能除錯的資源還是比個人多些上頭的人追究下來也有個廠商負責 100萬內的科研採購雖然不用招標但也總要有個廠商陪著跑文件廠商多賺的錢就當服務費省心 ==== 所以深度學習的機器到底要怎麼買？剛好最近有些採購也略有研究以下是個人心得不一定正確在此做個筆記記錄 ==== 買電腦第一先問預算再問需求但這次先問需求真的需要一台GPU Server嗎? 在PC上開發模型，真正的大量資料上AWS、Azure、GCP、國網中心的雲端GPU做訓練如果這樣的工作流不符合需求 (反正會有各種理由不行) 那也只好買台ML主機放地上了如果預算沒有上限 (好幾個億花不完) 直接請廠商送NVDIA DGX Pod來就可以了 http://tinyurl.com/y3k63fo2 Easy Deployment of DGX Servers for Deep Learning 超Easy 預算不到億但超過千萬 DGX-2就在預算內 https://www.nvidia.com/zh-tw/data-center/dgx-2/ 但NVIDIA要求購買DGX-2的單位最好要先有DGX-1的經驗預算超過500萬就能買一台DGX-1 https://www.nvidia.com/zh-tw/data-center/dgx-1/ 預算200萬上下你可以考慮買DGX Station https://www.nvidia.com/zh-tw/data-center/dgx-station/ 以上的價格都是我夢到的詳細數字請打電話問業務如果對於NV原廠機的配置不夠滿意想要更換CPU RAM想加大點儲存空間想調整或是想把錢都砸在GPU 其他部分精簡 DELL HPE都有多GPU系列機器可客製化嫌國外一線廠牌太貴國內的華碩、麗台也都有GPU Server可以挑怕被廠商坑可以先上DELL或HPE的美國官網點點配置大概有個行情概念錢能解決的問題都不是問題最大的問題是沒有錢沒錢的實驗室想買GPU Server來做深度學習這時就要問情境了是否願意犧牲機器穩定性、資料正確性來換取效能?? 實驗室有多少人要用? 同時用還是排隊用? 有沒有專人管理維護伺服器? 如果真的要自己進這個坑就繼續吧經驗告訴我多人同時使用一台GPU server體驗很糟的不只GPU是資源 CPU核心、CPU快取、PCIe頻寬、記憶體頻寬、記憶體容量、storage IOPS 全部都是瓶頸 8個人同時用一台8 GPU的server 就算一個人限制一顆GPU 8個人全部卡死所以GPU server的使用情境是 - 訓練資料量太大了需要多張卡做多倍的加速 (舉例：只能接受8張卡train 3小時無法接受1張卡跑24小時) - PC、HEDT的記憶體不夠 - 需要超多核心的CPU算力來做計算前處理這時候又有人能管理伺服器(實驗室成員排隊不會吵架) 那可以買大台的server 一個人一個人輪流用其他人只能等推文裡有人買2xTITAN RTX主機45萬若用不到512GB RAM或24GB VRAM或超多核心的算力可以買5台9萬的PC 能用同時用的人更多算力也更高 (2 GPU vs 5 GPU) ==== 最後才是考慮組裝個人電腦來用那組裝深度學習的主機零件怎麼挑呢？我不知道版上有多少人真的在深度學習說不定我也沒有玩過上來唬爛一通下面的解釋都是心得也不一定對就當參考 CPU 有人說深度學習主機的CPU不重要我不認為不重要或者說不重要不代表可以忽視不然隨便拿個i3或Xeon Bronze亮機就好 CPU快的主機還能拿來做其他運算非深度學習無GPU加速的機器學習算法也可以跑 GPU運算是需要CPU送資料進去的若CPU需要做些前處理算力不夠會導致資料產出速度不足導致GPU閒置另一個就是PCIe頻寬多卡時有機會塞車 (推文有人問ML主機跟礦機差在哪礦機基本上不需要PCIe頻寬一小段資料送進GPU爆hash出來 ML主機是大量的資料通過GPU 還有神經網路的權重更新問題頻寬需求不同) CPU的算力若要在高頻少核與低頻多核間選一個我會選高頻少核泛用性比較高畢竟如果不是跑固定的商用軟體或開源軟體很難確定平行化的效果如何最後至少還有個單核硬上的選項另外就是我懷疑nvidia的驅動只有單核在跑要是單核不夠力 GPU會比較慢以上是推測沒有直接證據至於AMD CPU (先說明這是現在的狀況 2019/7/7後會不會改變我不知道) Zen架構與Skylake架構相比浮點運算AMD就是弱勢 (4個128bit 兩個加法兩個乘法 vs 2個256bit加乘皆可) AVX 256bit AMD直接是Intel半速更不用說要是程式用了Intel的編譯器或數學庫(MKL, MATLAB或numpy都會用到) 偵測到不是intel的CPU 直接執行相容性最高(最慢)的機器碼 AMD的CPU遇到奧步很難跑得比INTEL的快至於HEDT平台 9980XE與2990WX我手上都有版上隨便推人買2950X或2990WX是很不負責任的我的建議是除非你的程式在X399平台上測過真的比較快(或是一樣快但比較便宜) 不然買intel真的比較不會有性能問題商人不是笨蛋 18核的9980XE與32核的2990WX才會沒什麼價差實際測試這兩顆互有輸贏如果你的程式是 - 多核平行化得很好單核慢沒關係 - 有NUMA支援不會卡RAM頻寬或CPU之間 - 浮點不重要 AVX 512沒差且不會被intel軟體奧步那2990WX有機會贏但還是建議要測過再購買 (不到6萬就能體驗4路不對稱NUMA所帶來的各種奇葩效能問題超值) RAM 通道插滿越大越好做正事的機器不建議用超頻記憶體標準條很棒 2019年記憶體需求超過64GB 只能選HEDT 超過128GB 只能選工作站超過512GB 只能選Server 嚴格要求資料正確性請買ECC MB 主流平台挑選跟一般開菜單一樣 VRM散熱與設計挑一下要是VRM供電不足可能連維持全核Turbo都有問題其他沒什麼重點 HEDT平台要看一下PCIe通道設計針對ML需求會不會塞車每張卡至少要x8 塞在CPU端或GPU端都會有影響 CPU散熱 i7-8700的原廠散熱沒有辦法在燒機下維持全核Turbo 4.3GHz 真的垃圾比原廠散熱器好的都可以 GPU 重點來了針對深度學習第一要考慮的就是VRAM大小 VRAM決定了能放多複雜的模型下來算 (有人會說Unified Memory啊或是什麼NVLink合併記憶體的會自己寫底層用這兩個功能的人就不會上來問問題了 Tensorflow可以開Unified Memory拿主記憶體硬跑代價是效能剩10分之一 [PCIe x16頻寬約GDDR6 1/10] NVLink自動合併記憶體我還沒看到Tensorflow或Pytorch有支援至少我在V100上是開不出自動合併會的人麻煩教學一下手動將模型拆放在兩張又不會卡頻寬也是需要花時間調整的) 還有batch size能開多少(這個可以透過多卡增加) 如果只是玩票性質的深度學習 6GB VRAM應該都能試跑常見的模型如果是拿來做事的 11GB VRAM的是首選因此消費級能挑的卡有 11GB 1080ti 2080ti 12GB GTX TITAN X TITAN X TITAN Xp TITAN V 24GB TITAN RTX Quadro卡很貴也沒有特別快除非你想買Quadro RTX 8000有48GB VRAM 不然光看規格我找不到買Quadro RTX 6000而不買TITAN RTX的理由 (其實有 Quadro RTX 6000是鼓風扇多卡散熱比TITAN RTX好) Tesla卡是被動散熱沒有風扇都是跟著設計過的機架出貨就算搞到手裝在一般機殼也是直接燒掉如果要使用多卡一定要用渦輪扇版本的強制排氣不然連跑幾個小時直接熱死再來要考慮的就是算力如果會用半精度fp16訓練(AMP之類的) 有Tensor Core的TITAN RTX、2080ti、TITAN V有絕對優勢 (雖然2080ti的Tensor Core在fp16/fp32混和精度被老黃閹成半速但還是很快) 只用fp32的話請直接看wiki Single precision欄位 https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units TITAN V與TITAN RTX比較 TITAN V是HBM 某些吃VRAM頻寬的模型計算速度上會快些 TITAN RTX的VRAM比較大且有NVLink NVLink的效果有幫助但沒有很顯著 Puget Systems上關於GPU跑深度學習的測試文都可以看看 https://www.pugetsystems.com/search.php?query=+Machine+Learning TITAN V與TITAN RTX個人會選RTX 慢一點等就好 (沒用Tensor core速度根本沒差) 放不進VRAM連算都不用算 PCHome定價還比較便宜 Storage 都2019了 SSD必備吧額外的硬碟、RAID或是NAS就看預算另外NVMe組RAID 0不會增加隨機讀取IOPS 不要為了這個浪費錢 Power 如果放機器的地方沒有220V 組4卡機器可能要考慮一下 1500W推4張TU102+CPU其實很拚 ==== 最後是菜單線上隨便點的別真的拿去組 80K 深度學習文書PC CPU (中央處理器)： Intel i9-9900K【8核/16緒】3.6GHz(↑5.0GHz)/16M/95W 15800 Cooler (散熱器)：利民 Silver Arrow T8 8根導管(6mm)/TY-143B*1/雙塔/高度15.8cm/TDP:320W 2400 MB (主機板)：技嘉 Z390 AORUS ELITE 翼力特(ATX/1H/Ｉ網/一體式檔板/註五年) 4890 RAM (記憶體)： KLEVV(科賦) 16GB DDR4-2666/CL16 4x1888 7552 VGA (顯示卡)：技嘉 RTX2080Ti TURBO 11G(1545MHz/27.2cm/註四年) 36890 SSD (固態硬碟)：威剛 XPG SX8200Pro 1TB/M.2 PCIe 2280/讀:3500M/寫:3000M/TLC【五年保】附散熱片 4380 HDD (硬碟)： Toshiba 6TB【企業級】128MB/7200轉/五年保(MG05ACA600E) 5390 PSU (電源供應器)：全漢聖武士 650W/銅牌/全日系/DC-DC/5年免費/CPU主線:18AWG 1990 CHASSIS (機殼)：全漢 CMT240B 炫鬥士黑顯卡長37.3/CPU高17.9/壓克力透側/上開孔/ATX 1090 ==== 300K 深度學習入門PC 處理器 CPU: Intel i9-9980XE【18核/36緒】3.0G(↑4.4GHz)/24.75M/165W/無內顯【代理盒裝】 61000 主機板 MB: 華碩 WS X299 SAGE/10G(CEB/8*D4/雙Ｉ網-10G/2*M.2/1*U.2/三年) 21900 記憶體 RAM: 美光 Micron Crucial 16G DDR4-2666 8x2099 16792 固態硬碟 M.2｜SSD: 三星Samsung 970 PRO NVMe 1TB/M.2 PCIe 讀:3500/寫:2700/MLC/五年保 13500 傳統內接硬碟HDD: Toshiba 10TB【企業級】256MB/7200轉/五年保(MG06ACA10TE) 9990 散熱器: 利民 Silver Arrow IB-E Extreme 8根導管(6mm)/雙塔/高度16cm/TDP:320W【VWX】 2890 顯示卡: 華碩 TURBO-RTX2080Ti-11G(1545MHz/26.9cm/註四年) 4x38990 155960 機殼: 海盜船 Carbide Air 540 黑顯卡長31/CPU高17/SSD*6(2共用)/E-ATX 4490 電源供應器: 全漢 CANNON 2000W 雙8/全模/全日系/1年保固/六項保護/支援18組PCI-E 6+2PIN 12900 ==== 300K那組可再往上調整一階成自組工作站 CPU可換Xeon W-2195 MB可換ASUS WS C422 SAGE/10G RAM加到512GB VGA換成2x Titan RTX ==== 再往上就不要自組或白牌server了啦驗證也是要錢的廠商的人力服務支援都是錢更高階的機器不是所有零件裝上去就會動的散熱、供電、各零件相容性都是眉角花了幾百萬經費買了不會動的機器一定被教授砍死這邊都還只有講到硬體要是管理伺服器的人軟體部分OS、CUDA driver等等設定無法自己來還是要有個廠商在後面支援才好啥都不懂買品牌機就對了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.16.145 ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1559148243.A.200.html

推

a3831038

05/30 00:52, 5年前 , 1^F

05/30 00:52, 1^F

推

windrain0317

05/30 00:53, 5年前 , 2^F

05/30 00:53, 2^F

推

rtwodtwo

05/30 00:55, 5年前 , 3^F

05/30 00:55, 3^F

拉高IOPS的另一種說法是降低latency 唯一做法就是換Optane 8xSAMSUNG 970 PRO 1TB 贏不了900p 我測過了過一個RAID還會增加延遲 IOPS反而下降但容量隨機寫連續讀寫還是有幫助就看目的

推

hprince

05/30 01:04, 5年前 , 4^F

05/30 01:04, 4^F

※ 編輯: fo40225 (140.112.16.145), 05/30/2019 01:08:08

推

xiemark

05/30 01:10, 5年前 , 5^F

05/30 01:10, 5^F

推

WARgame723

05/30 01:12, 5年前 , 6^F

05/30 01:12, 6^F

推

onepunchgg

05/30 01:16, 5年前 , 7^F

05/30 01:16, 7^F

推

hizuki

05/30 01:20, 5年前 , 8^F

05/30 01:20, 8^F

推

m54ak

05/30 01:24, 5年前 , 9^F

05/30 01:24, 9^F

推

MrDisgrace

05/30 01:44, 5年前 , 10^F

05/30 01:44, 10^F

推

gaade

05/30 01:44, 5年前 , 11^F

05/30 01:44, 11^F

→

gaade

05/30 01:44, 5年前 , 12^F

05/30 01:44, 12^F

推

NX9999

05/30 01:57, 5年前 , 13^F

05/30 01:57, 13^F

推

SahoYaho

05/30 02:02, 5年前 , 14^F

05/30 02:02, 14^F

推

Zinsei

05/30 02:10, 5年前 , 15^F

05/30 02:10, 15^F

推

WFSGT

05/30 02:12, 5年前 , 16^F

05/30 02:12, 16^F

推

piyopiyolee

05/30 02:22, 5年前 , 17^F

05/30 02:22, 17^F

推

tom282f3

05/30 02:26, 5年前 , 18^F

05/30 02:26, 18^F

推

ctweng13

05/30 02:39, 5年前 , 19^F

05/30 02:39, 19^F

要看情境 9900k就是小台的機器 64G RAM + 1~2GPU 2697v3應該是雙路大台的機器爆幹大的RAM + 4~8GPU 大台的機器拆成小台給多人用會比買一堆小台的給多人用起來慘一堆小台的機器很難在需要大量算力時湊成一台大台的 (可以挑戰從eBay上買拆機100Gbps網卡組叢集成功了功力++) 所以取決於你的需求

推

stephen2232

05/30 02:53, 5年前 , 20^F

05/30 02:53, 20^F

推

is2586537

05/30 03:06, 5年前 , 21^F

05/30 03:06, 21^F

推

Etern

05/30 03:08, 5年前 , 22^F

05/30 03:08, 22^F

推

ping860622

05/30 03:09, 5年前 , 23^F

05/30 03:09, 23^F

推

BaWanYi

05/30 03:15, 5年前 , 24^F

05/30 03:15, 24^F

推

william25520

05/30 03:21, 5年前 , 25^F

05/30 03:21, 25^F

推

BambooGrove

05/30 03:23, 5年前 , 26^F

05/30 03:23, 26^F

推

MrDisgrace

05/30 03:24, 5年前 , 27^F

05/30 03:24, 27^F

推

h311013

05/30 03:34, 5年前 , 28^F

05/30 03:34, 28^F

推

cory8249

05/30 03:39, 5年前 , 29^F

05/30 03:39, 29^F

推

Higana

05/30 03:39, 5年前 , 30^F

05/30 03:39, 30^F

推

a007son

05/30 03:43, 5年前 , 31^F

05/30 03:43, 31^F

推

firex10

05/30 03:44, 5年前 , 32^F

05/30 03:44, 32^F

推

jeff40108

05/30 03:51, 5年前 , 33^F

05/30 03:51, 33^F

推

remia81

05/30 03:57, 5年前 , 34^F

05/30 03:57, 34^F

推

a2470abc

05/30 03:58, 5年前 , 35^F

05/30 03:58, 35^F

推

KuChanTung

05/30 04:26, 5年前 , 36^F

05/30 04:26, 36^F

還有 66 則推文

還有 2 段內文

推

clap

05/30 12:09, 5年前 , 103^F

05/30 12:09, 103^F

推

jasn4560

05/30 12:15, 5年前 , 104^F

05/30 12:15, 104^F

推

perfects1988

05/30 12:18, 5年前 , 105^F

05/30 12:18, 105^F

推

twistedvate

05/30 12:25, 5年前 , 106^F

05/30 12:25, 106^F

推

anderleth

05/30 12:32, 5年前 , 107^F

05/30 12:32, 107^F

推

maplefoxs

05/30 12:41, 5年前 , 108^F

05/30 12:41, 108^F

推

arrenwu

05/30 13:01, 5年前 , 109^F

05/30 13:01, 109^F

→

arrenwu

05/30 13:01, 5年前 , 110^F

05/30 13:01, 110^F

→

arrenwu

05/30 13:02, 5年前 , 111^F

05/30 13:02, 111^F

推

MrDisgrace

05/30 13:55, 5年前 , 112^F

05/30 13:55, 112^F

→

AmibaGelos

05/30 14:02, 5年前 , 113^F

05/30 14:02, 113^F

→

AmibaGelos

05/30 14:02, 5年前 , 114^F

05/30 14:02, 114^F

推

Jmoe

05/30 14:20, 5年前 , 115^F

05/30 14:20, 115^F

→

badyy

05/30 14:46, 5年前 , 116^F

05/30 14:46, 116^F

→

badyy

05/30 14:46, 5年前 , 117^F

05/30 14:46, 117^F

→

badyy

05/30 14:47, 5年前 , 118^F

05/30 14:47, 118^F

→

badyy

05/30 14:48, 5年前 , 119^F

05/30 14:48, 119^F

→

skycat2216

05/30 15:35, 5年前 , 120^F

05/30 15:35, 120^F

→

skycat2216

05/30 15:35, 5年前 , 121^F

05/30 15:35, 121^F

推

LOUlSVUITTON

05/30 18:35, 5年前 , 122^F

05/30 18:35, 122^F

推

Ham10159

05/30 18:45, 5年前 , 123^F

05/30 18:45, 123^F

推

user1120

05/30 19:08, 5年前 , 124^F

05/30 19:08, 124^F

推

goldie

05/30 19:18, 5年前 , 125^F

05/30 19:18, 125^F

噓

nickball007

05/30 19:18, 5年前 , 126^F

05/30 19:18, 126^F

→

gaade

05/30 19:29, 5年前 , 127^F

05/30 19:29, 127^F

推

dogluckyno1

05/30 19:51, 5年前 , 128^F

05/30 19:51, 128^F

推

tofukingkion

05/30 20:53, 5年前 , 129^F

05/30 20:53, 129^F

→

ashburr

05/30 21:03, 5年前 , 130^F

05/30 21:03, 130^F

推

i1k1y

05/30 22:03, 5年前 , 131^F

05/30 22:03, 131^F

→

anedo

05/30 23:55, 5年前 , 132^F

05/30 23:55, 132^F

推

ticy

05/31 09:44, 5年前 , 133^F

05/31 09:44, 133^F

推

zephyr105

05/31 10:18, 5年前 , 134^F

05/31 10:18, 134^F

推

nucleargod

05/31 22:15, 5年前 , 135^F

05/31 22:15, 135^F

→

nucleargod

05/31 22:15, 5年前 , 136^F

05/31 22:15, 136^F

→

nucleargod

05/31 22:16, 5年前 , 137^F

05/31 22:16, 137^F

→

nucleargod

05/31 22:17, 5年前 , 138^F

05/31 22:17, 138^F

→

nucleargod

05/31 22:18, 5年前 , 139^F

05/31 22:18, 139^F

會用OpenCL全部自己來的大神一定相當了解自己的程式需要什麼硬體資源就不會上來問菜單了但對於不懂的人寫出來的code 87%是需要單核效能更不要說什麼花時間調整後 gcc + OpenBLAS + OpenCL @A+A 就能對抗 icc + MKL + CUDA @I+N 對於一般人來說還是太遙遠 ※ 編輯: fo40225 (140.112.16.145), 06/01/2019 00:58:38

推

GoGoJoe

06/01 20:47, 4年前 , 140^F

06/01 20:47, 140^F

※ 編輯: fo40225 (140.112.16.145 臺灣), 05/08/2020 18:46:01

‣ 返回看板[ PC_Shopping ] 硬體

‣ 更多 fo40225 的文章

文章代碼(AID): #1SxhRJ80 (PC_Shopping)