[情報] NVIDIA 發表 8 萬核桌面級超級電腦

看板PC_Shopping作者 (霸氣登場)時間6年前 (2018/03/28 13:21), 編輯推噓70(72238)
留言112則, 68人參與, 6年前最新討論串1/1
核彈教父勢不可擋:NVIDIA 發表 8 萬核桌面級超級電腦 https://imgur.com/JFLEyPk.jpg
在標準運算技術的時代,推動進步的是 Intel 和由它發揚光大的摩爾定律。但 2012 年 之後,當運算技術進入了名為「深度學習」的全新時代,創辦於 1993 年的 NVIDIA 卻成 為了強勢黑馬。 「NVIDIA 通過深度學習平台所取得的創新,許多都已成為世界標準。我們以 遠超摩爾定 律的速度推動運算性能飛速成長,促進健康、交通、科學探索等無數領域的突破。」在一 場演講中,創辦人兼 CEO 黃仁勳自豪地對數千名觀眾表示。 去年,站在同一個舞台,黃仁勳說他一直想要找到摩爾定律之後的路。而以神經網絡為基 礎的人工智慧,其爆發式發展到了 2018 年已經過去了五年。而在這五年裡,GPGPU(通 用圖形處理器)成為了人工智慧研發的利器,在運算密集型的深度學習任務上獨步天下。 NVIDIA 指出,和五年前的 Ferml GPU 架構相比,最新一代的 Volta GPU 架構的浮點運 算能力提升了 25 倍。 「摩爾定律 10 年 5 倍,」黃仁勳說,「這就是我們超越摩爾定律的證明。」 https://imgur.com/o0IT49o.jpg
NVIDIA 開發者社群的擴張迅速,印證了黃仁勳大膽的聲明。該公司統計,GPU 開發者在 今年將達到 82 萬人,比五年前成長了 5 倍;在 NVIDIA GPU 上開發必備的分散式運算 架構工具包 CUDA,下載數量超過了 800 萬,其中約一半是在過去一年裡下載的。不僅如 此,該公司提供的 GPU 加速技術還被世界上大量超級電腦協同採用,其 Volta GPU 為美 國的 Summit 和 Sierra 兩大超級電腦增加了大約 100 PFLOPS(百萬兆次浮點運算能力 )。 在美國時間 3 月 27 日的 NVIDIA GPU 技術大會 (GTC 2018) 上,該公司帶來了多個在 深度學習、自動駕駛和機器人領域足以掀起巨浪的新產品。其中最為重頭的,則是一年一 度的新核彈級顯卡 —— 這次,並不是 GTX 11 系列,也不是傳聞甚囂塵上的「礦卡」, 而是一台被黃仁勳稱為「桌面超級電腦」的工作站:NVIDIA DGX-2。 DGX-2 是一台專門用於人工智慧訓練和 / 或推理任務的桌面電腦: https://imgur.com/uutFs3C.jpg
這是它的內部結構: https://imgur.com/uwoDOQq.jpg
你可以看到,在圖中 1 和 2 的位置看起來是很多塊晶片。其實他們是 NVIDIA 的 Tesla V100 Volta 架構 GPGPU,單枚算力達到雙精度 7.8 TFLOPS(兆次浮點運算)、 單精度 15.7TFLOPS、深度學習 125TFLOPS。 而 DGX-2 單機箱安裝了 16 枚 V100,總體性能達到了驚人的 2PFLOPS—— 業界第一台 超過百萬兆次浮點運算能力的單機箱電腦 —— 稱它為超級電腦或許並不浮誇。 但 DGX-2 的算力並非靠堆疊出來,如果它們之間不能實現高頻寬的數據互通則無意義。 時間倒回兩年前,NVIDIA 有意在深度學習的設備市場上對 Intel 發起直接挑戰,推出了 Pascal 架構的 P100 GPGPU。在當時,主流伺服器 PCIe 總線接口的頻寬和時延,已經 無法滿足 NVIDIA 的需求。於是它們開發出了一個新的設備內互聯標準,叫做 NVLink, 使得頻寬達到了 300 GB/s。一個 8 枚 GPGPU 的系統裡,NVLink 大概長這樣: https://imgur.com/W6Gld6e.jpg
然而 NVLink 的標準拓撲結構在理論上最多支援 8 枚 顯卡,仍不足以滿足 NVIDIA 對於 新系統內置更多顯卡的需要。於是在 NVLink 的基礎上,NVIDIA 開發出了一個名專門在 顯卡之間管理 NVLink 任務的協調處理器,命名為 NVSwitch。這個組建在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實現 NVLink 互通,總頻寬超過了 14.4 TB。 這個數字創造了桌面級電腦內總線接口頻寬的新高,但實現它的目的並非跑分,而在於 DGX-2 可以 1)更快速地訓練一個高複 雜度的神經網絡,或 2)同時訓練大量不同結構 的神經網絡。 https://imgur.com/SlhdeuS.jpg
NVIDIA CEO 黃仁勳,背景是 NVSwitch 示意圖 N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構在這個依核心數量論高下 的時代顯得超凡脫俗 —— 動輒幾百、上千個 CUDA 核心,令人不明覺厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數達到了瘋狂的 81,920 核心。這個事實,結合 NVSwitch 技術、512GB 現存、30TB NVMe 固態硬盤、兩枚至強 Platimum CPU 和高達 1.5TB 的主 機記憶體 —— 黃仁勳用 GPU 深度學習裡里碑式的傑作 AlexNet 來舉例。研究者 Alex Krizhevsk 用了 6 天,在 NVIDIA GPU 上訓練 AlexNet,這個研究首次利用梯度下降法和卷積神經網絡 進行電腦圖像識別,顯著優於枝前的手調參數法,拿下了 ImageNet 圖像識別競賽冠軍。 AlexNet 讓 Alex 世界聞名,這 6 天可以說值了。 然而,「同樣的 8 層卷積神經網絡,我用 DGX-2 跑了一下,只用 18 分鐘就達到了同樣 的結果,」黃仁勳說,「五年,500 倍的進步。」 這說明很多東西。其中有一條:在這五年裡,NVIDIA 的技術進步節奏已經無法用摩爾定 律來描述了。 DGX-2 主要的應用場景是顯著加速高端科研和商業人工智慧產品的研發和面市。它顯然不 是一台消費級的產品 —— 高達 150 萬美元的售價 …… https://imgur.com/1WEf6tL.jpg
開玩笑的,最終售價是 40 萬美元 …… https://imgur.com/dXnNvo0.jpg
然而即便是 40 萬美元的未含稅價格,還是讓一些手頭緊張的工業使用者望而卻步。別擔 心,DGX-2 只是今天 NVIDIA 在人工智慧領域的幾個新產品之一,其它還有: 1.DGX 機箱裡面的 V100 GPGPU 升級版,記憶體升級到了 32 GB,那些只需要單枚或者少 量顯卡的研究者,生產力得到解放,可以訓練更複 雜的神經網絡了: https://imgur.com/VwwvCr8.jpg
2. 面向包括電影視覺特效、建築設計等創意工業,推出的 Quadro GV100 顯卡產品。 Quadro GV100 是一塊工作站顯卡,裡面是兩枚 V100 GPU。這塊顯卡支援 NVIDIA 最新的 頂級光線追蹤 (Ray Tracing) 技術 NVIDIA RTX: https://imgur.com/6sQkuiA.jpg
3.NVIDIA RTX:如前述,NVIDIA 開發的一種極其複 雜,且運算密集型的光效技術。簡單 來說,像在真實世界裡那樣,摻雜的多光源、複雜的環境,導致光線照到不同材質的物品 上所呈現出的散逸,以及物品對光源、對其它物品,在曲面、球面甚至不規則表面所產生 的反射效果,或者光源照射到玻璃杯產生的不規則投影 ——這些光效和陰影在過去極難 通過電腦完美呈現,但 NVIDIA 今天向著亦真亦幻往前走了一步。 https://imgur.com/KGnEf0V.gif
4.TensorRT 4,新一代的 TensorFlow 推理工具;GPU 對美國科技公司在去年推出的深度 學習兼容框架標準 ONNX 兼容;終於可以在 Kubernetes (K8S) 上管理 NVIDIA GPU 了, 支援 AWS、Google Cloud Platform、阿里雲等。 5. 新的自動駕駛車載運算架構 ORIN。 6. 駕駛虛擬模擬技術 Drive SIM & Constellation。這是一個很有趣的技術,可以讓 NVIDIA 以及其它開放平台的科技公司在 GPU 上模擬自動駕駛汽車訓練,顯著降低開放 道路真車訓練的危險性。這個技術還有一個獨特的用法:接入了該平台的汽車,在未來可 以 遠程操控,黃仁勳演示了一個司機在會場,用 VR 頭盔和手把 遠程駕駛一輛汽車躲避 障礙並成功停車。 https://imgur.com/Fe1YYTW.jpg
7. 機器人開發開放平台 ISSAC,利用了 NVIDIA 在自動駕駛上積累的一些技術,比如高 精度地圖繪制等。 8.Project CLARA,一個雲端醫療診斷的計畫。這個計畫非常有趣,簡單來說,NVIDIA 醫 院提供基於雲端的醫療圖像識別超級電腦,一個場景是上傳心臟 B 超的即時視頻流,雲 端的顯卡運行訓練好的神經網絡,可以將畫面變成 3D 的體積圖像,然後即時將器官顯示 出來,從而生成一個更容易觀看的 3D 畫面。現場演示的畫面還給出了器官功能的即時數 據,包括每次搏動的輸血量等,令人印象深刻。 https://imgur.com/dvcllam.jpg
矽谷是一個 T 恤帽衫和拖鞋統治的地方,而 NVIDIA 的創辦人黃仁勳在這裡是個相當明 顯的另類:一身皮夾克的他,工程師出身又負責過市場,演講起來絲毫沒有許多其它科技 大佬身上特有的「虛偽」氣息。 在 GTC 2018 上,可能覺得自己氣場還不夠強,他直接站在了椅子上接受記者的提問;他 明顯接受過公關訓練,但在回答提問時的誠懇仍然在科技大佬中顯得獨特,甚至直接問旁 邊的公關「你是不是想打斷我?但我已經說完了。」人稱「核彈教父」的黃仁勳,名副其 實。 他吐槽常見的 x86 架構伺服器站,一個機櫃動輒數十台伺服器,十幾台機櫃總成本成百 上千萬美元。而取得同樣的深度學習訓練效果,只需幾台或者十幾台 V100,或者一台 DGX-2,價格至多六位數。這也是為什麼他在演講時,不斷對台下的觀眾重復:多買更划 算!(The more you buy, the more you save.) 幾乎將一場 GPU 技術演講變成了電視購 物。 「Watch now ‘cause here I come.」 是黃仁勳上台前的暖場歌曲裡的一句歌詞。 至少在今天,將摩爾定律踩在腳下,黃仁勳和他的 NVIDIA 看起來勢不可擋。 https://imgur.com/ZiE6xlm.jpg
https://goo.gl/51bbL6 可以把整個PTT網站放進去嗎? 這樣上PTT會更快嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.235.91.195 ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1522214513.A.A79.html

03/28 13:25, 6年前 , 1F
買來幫我想晚餐到底要吃什麼
03/28 13:25, 1F

03/28 13:27, 6年前 , 2F
8萬核:決定了 請你吃荷蛋
03/28 13:27, 2F

03/28 13:28, 6年前 , 3F
GPGPU反而不覺得老黃會有什麼優勢 AMD還不出朝阿
03/28 13:28, 3F

03/28 13:30, 6年前 , 4F
買來幫我決定決定一樓早餐要吃什麼
03/28 13:30, 4F

03/28 13:35, 6年前 , 5F
五樓買十台送版友
03/28 13:35, 5F

03/28 13:36, 6年前 , 6F
謝謝5樓 <3
03/28 13:36, 6F

03/28 13:36, 6年前 , 7F
所以玩麥塊能穩60嗎
03/28 13:36, 7F

03/28 13:36, 6年前 , 8F
好 謝謝五樓出錢 我先預約一台了
03/28 13:36, 8F

03/28 13:37, 6年前 , 9F
礦雞…
03/28 13:37, 9F

03/28 13:38, 6年前 , 10F
謝謝5樓
03/28 13:38, 10F

03/28 13:38, 6年前 , 11F
謝五樓
03/28 13:38, 11F

03/28 13:39, 6年前 , 12F
買一台多久可以回本?
03/28 13:39, 12F

03/28 13:39, 6年前 , 13F
上PTT能穩定60偵嗎?
03/28 13:39, 13F

03/28 13:40, 6年前 , 14F
超算領域AMD還不知道在哪
03/28 13:40, 14F

03/28 13:42, 6年前 , 15F
五樓人真好
03/28 13:42, 15F

03/28 13:45, 6年前 , 16F
真的永遠是那件欸…
03/28 13:45, 16F

03/28 13:45, 6年前 , 17F
研究型電腦哪有在管回本的…
03/28 13:45, 17F

03/28 13:47, 6年前 , 18F
膠水被老黃超車 幫AMD QQ
03/28 13:47, 18F

03/28 13:47, 6年前 , 19F
五樓+1
03/28 13:47, 19F

03/28 13:48, 6年前 , 20F
上PTT能144Hz嗎?目前很少電腦能達到這個需求
03/28 13:48, 20F

03/28 13:49, 6年前 , 21F
黃乙己 你又在亂堆核心了!
03/28 13:49, 21F

03/28 13:54, 6年前 , 22F
20年後中階桌機電腦屌打
03/28 13:54, 22F

03/28 13:55, 6年前 , 23F
老黃這麼急著卡膠水位置 該不會Navi直接粘到消費級
03/28 13:55, 23F

03/28 13:55, 6年前 , 24F
03/28 13:55, 24F

03/28 13:55, 6年前 , 25F
能挖礦嗎 不能的話毫無實用性(嫌棄臉
03/28 13:55, 25F

03/28 13:56, 6年前 , 26F
Can it run CRYSIS?
03/28 13:56, 26F

03/28 14:01, 6年前 , 27F
NV link做很久了八 現在只是再把頻寬弄得更高
03/28 14:01, 27F

03/28 14:07, 6年前 , 28F
這看起來不太像是膠水啦 就是加強版的NVlink
03/28 14:07, 28F

03/28 14:09, 6年前 , 29F
MCM的只有那6顆NVSwitch
03/28 14:09, 29F

03/28 14:17, 6年前 , 30F
這台挖礦好嗎 好的話考慮買台來玩玩
03/28 14:17, 30F

03/28 14:21, 6年前 , 31F
八萬核屌打AMD
03/28 14:21, 31F

03/28 14:24, 6年前 , 32F
可以挖 但是我覺得回不了本
03/28 14:24, 32F

03/28 14:25, 6年前 , 33F
可惡 想挖礦
03/28 14:25, 33F

03/28 14:28, 6年前 , 34F
這就老黃版的膠水啊 AMD的野心比較大的感覺 要做GPU
03/28 14:28, 34F

03/28 14:28, 6年前 , 35F
直連
03/28 14:28, 35F

03/28 14:34, 6年前 , 36F
NV單顆就可以純軟體完美模擬PS4了,因為效能差距達
03/28 14:34, 36F

03/28 14:34, 6年前 , 37F
到10倍
03/28 14:34, 37F

03/28 14:35, 6年前 , 38F
NVLink不是膠水,比較像PCIe5.0
03/28 14:35, 38F

03/28 14:39, 6年前 , 39F
想買信仰外套 XD
03/28 14:39, 39F
還有 33 則推文
03/28 18:17, 6年前 , 73F
但實作出天網的在對岸
03/28 18:17, 73F

03/28 18:20, 6年前 , 74F
對岸要不要搞個天網鏈,把礦工算力抓去分析臉孔聲音
03/28 18:20, 74F

03/28 18:20, 6年前 , 75F
謝謝5樓 <3
03/28 18:20, 75F

03/28 18:26, 6年前 , 76F
謝五樓
03/28 18:26, 76F

03/28 18:48, 6年前 , 77F
這該不會是做出來挖礦的吧....
03/28 18:48, 77F

03/28 19:09, 6年前 , 78F
可以吃雞嗎
03/28 19:09, 78F

03/28 19:10, 6年前 , 79F
NVLink的頻寬=PCIe5.0宣稱達到的頻寬
03/28 19:10, 79F

03/28 19:11, 6年前 , 80F
NV版的膠水還沒研發出來
03/28 19:11, 80F

03/28 19:11, 6年前 , 81F
終於有能順跑PTT的電腦了
03/28 19:11, 81F

03/28 19:18, 6年前 , 82F
順帶一提PCIe4.0已經完成標準化,X1單向2G,X16單向3
03/28 19:18, 82F

03/28 19:18, 6年前 , 83F
2G
03/28 19:18, 83F

03/28 19:18, 6年前 , 84F
2019商品化,NV Link頻寬80G
03/28 19:18, 84F

03/28 19:20, 6年前 , 85F
PS4單精1.4T,如果用模擬器完美模擬需要14T的性能,G
03/28 19:20, 85F

03/28 19:20, 6年前 , 86F
V100達標了。
03/28 19:20, 86F

03/28 19:27, 6年前 , 87F
nV和台廠供應鏈的共同成果
03/28 19:27, 87F

03/28 19:29, 6年前 , 88F
基本上是晶片再放大不可能才這樣搞
03/28 19:29, 88F

03/28 19:31, 6年前 , 89F
過一個switch他還是在搞膠水 控制器外接而已
03/28 19:31, 89F

03/28 19:46, 6年前 , 90F
為什麼完美模擬X86和GCN需要14T性能?
03/28 19:46, 90F

03/28 19:53, 6年前 , 91F
中國現在還在1984進行中拉,給個二十年看看
03/28 19:53, 91F

03/28 20:25, 6年前 , 92F
五樓我要一台謝謝
03/28 20:25, 92F

03/28 20:48, 6年前 , 93F
AMD表示
03/28 20:48, 93F

03/28 20:59, 6年前 , 94F
老黃真是最帥亞洲人
03/28 20:59, 94F

03/28 21:51, 6年前 , 95F
有生之前有辦法買到普及的八萬核嗎
03/28 21:51, 95F

03/28 22:22, 6年前 , 96F
皮衣才是主體 老黃只是放置架
03/28 22:22, 96F

03/28 23:13, 6年前 , 97F
老黃:買一張不夠就買整箱!
03/28 23:13, 97F

03/28 23:53, 6年前 , 98F
Sony的規格都是特規,不走IEEE標準
03/28 23:53, 98F

03/28 23:57, 6年前 , 99F
AMD只宣稱客製化,並沒有說有相容AMD64
03/28 23:57, 99F

03/29 00:00, 6年前 , 100F
哪有特規,重新發明輪子的成本不划算
03/29 00:00, 100F

03/29 00:01, 6年前 , 101F
PS4客製就是選PC的IP堆積木而已
03/29 00:01, 101F

03/29 00:02, 6年前 , 102F
軟體要模擬的也只是軟體API差異
03/29 00:02, 102F

03/29 00:02, 6年前 , 103F
而不是要模擬硬體指令面。
03/29 00:02, 103F

03/29 00:24, 6年前 , 104F
你還是沒解釋14T怎麼計算出來的
03/29 00:24, 104F

03/29 00:39, 6年前 , 105F
超級電腦都是在用雙精度在算的 這台頂多128TFLOPS
03/29 00:39, 105F

03/29 00:39, 6年前 , 106F
是很強但還排不上top500的邊 100台ㄧ起做cluster可
03/29 00:39, 106F

03/29 00:39, 6年前 , 107F
能比較有看頭
03/29 00:39, 107F

03/29 10:42, 6年前 , 108F
反正 ML 單精度夠用
03/29 10:42, 108F

03/29 11:37, 6年前 , 109F
偽PC家還在繼續唬爛數據 真了不得
03/29 11:37, 109F

03/29 12:39, 6年前 , 110F
謝五隆恩
03/29 12:39, 110F

03/29 13:11, 6年前 , 111F
跟偽PC家討論本來就是不明智的選擇
03/29 13:11, 111F

03/30 12:30, 6年前 , 112F
40萬美元其實真的不貴...2Pflops欸
03/30 12:30, 112F
文章代碼(AID): #1QkoPnfv (PC_Shopping)