Re: [請益] 機器學習 Nvidia Tesla T4 or Quadro RTX

看板PC_Shopping作者 (入贅桧月家,我妻彩花)時間4年前 (2020/04/26 15:19), 4年前編輯推噓3(301)
留言4則, 2人參與, 4年前最新討論串2/2 (看更多)
目前確實打算等GTC 2020後再打算,因為只有一個月左右時間可能還能等 說一下目前做的功課 1. 參考 fo40225 大的文章決定除GPU部分的配置 #1SxhRJ80 (PC_Shopping) 2. Nvidia vGPU認證資料 要挑機器直接從當中挑就好了 https://www.nvidia.com/en-us/data-center/resources/vgpu-certified-servers/ Asus 不知道臺灣本部的情況如何,國外事業部的服務水準很鳥,客服根本聽不懂我們在說什麼 Cisco 價格太貴了,而且服務支援太麻煩了 Dell EMC 不理會我們,似乎是之前被放鳥太多次了,可以NVLink的只有1U機型 Huawei 不能出貨了 HPE 4U外的機器估價很慢,出貨太少的緣故吧。GPU一定要裝4塊才能出貨 Lenovo 機器是很便宜,但是全部都只能上Tesal T4也沒有NVLink Supermicro 可以凸一下只安裝2 GPUs出貨 3. 數個效能評估文章 https://blog.exxactcorp.com/whats-the-best-gpu-for-deep-learning-rtx-2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/ https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/ 得出來的結論就是,論單一GPU,不考慮double precision(因為很少有用) GPU Memory > Tensor core 4. NVLink 目前只有SXM form fator(板卡尺寸)才支援NVLink Hybrid Cube Mesh 也就是單個CPU上的GPUs之間都是用NVLink互相連接的,兩個CPUs上的GPUs是可以通過 有限通路的NVLink相互連接 而普通的NVLink只能兩個GPUs之間互相連接 至於能否變成Memory Pool或者利用複數GPUs的tensor core進行運算,我不確定效果 因為之前的機器配置的連接模式有問題 根據nVidia方面的說明,nccl能幫你完成這方面的工作,OpenMP也已經提供了相應的支援 不過具體使用方式,取決於你的training framework,例如Horovod 表示是可以支援多GPUs 分發,但是我還是不確定這部分的效果 5. Tesla VS Quadro VS Titan 其實沒有什麼可選的,只有那幾款Tesla才有採用SXM form factor Titan系列的都不支援SR-IOV,如果想要VMware 下無修正使用(會損失效能),只能考慮 Tesla或Quadro 價格上來講,Tesla會比Quadro較優,Titan是CP值最高 : → hizuki : 但是Titan要三槽位很難插,只能找美超微定機器了? 04/18 14:36 : 推 atrix : Titan rtx 只占用雙槽,不會卡到第三槽。 04/19 00:20 : 散熱器會突來一點 : → atrix : 我晚點裝看看,我記得是不會卡到阿? 04/21 10:20 : → atrix : 是裝的下拉,不過多卡時,散熱就很緊 04/21 10:45 : → atrix : http://i.imgur.com/SY1vtWZ.jpg
04/21 10:45 更麻煩的是比如4U托架伺服器的槽位,估計只能勉強塞下,要拆掉散熱塑膠, 然後沒有地方給你安裝NVLink bridge 6. 結論 目前 US$ 20,000的預算是沒有辦法選支援NVLink hybrid cube mesh的機型的, 托架式的可能無法安裝NVLink bridge -- 你比較喜歡哪一個? 當年不是黨國大老但是被江浙財團捧紅的中國帥哥 跟同樣擁兵一方的諸侯約會裁軍結果半途諸侯們爽約,平常有在寫日記的莊嚴男人開始發飆 在旁邊讀著荒漠甘泉冷眼旁觀看著薔薇戰爭的人,為了中國的事情爭吵 別國調侃是不是中國總統,義正詞嚴的說著我是民族的燈塔的威嚴老先生 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 38.106.22.59 (美國) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1587885580.A.286.html

04/26 15:24, 4年前 , 1F
現在用雲端運算服務會不會比較便宜啊?
04/26 15:24, 1F
training中有大量資料搬運(model input調整),雲端的速度受不了 而且不我不確認雲端是否可以調整driver,因為上層framework限制經常要守著老的driver 理論上SR-IOV是可以解決這個問題 ※ 編輯: hizuki (38.106.22.59 美國), 04/26/2020 15:43:28

04/26 16:53, 4年前 , 2F
雲端如果沒敏感資料的話 應該可行 只是熟悉要花點
04/26 16:53, 2F

04/26 16:53, 4年前 , 3F
前置工夫
04/26 16:53, 3F

04/26 18:36, 4年前 , 4F
如果是突然的一次性預算核銷問題就比較麻煩
04/26 18:36, 4F
文章代碼(AID): #1UfJOCA6 (PC_Shopping)
文章代碼(AID): #1UfJOCA6 (PC_Shopping)