Re: [情報] 光線追蹤太耗資源:《古墓奇兵:暗影》開

看板PC_Shopping作者 (Colors Guardian)時間5年前 (2018/08/22 08:06), 5年前編輯推噓20(20028)
留言48則, 21人參與, 5年前最新討論串3/3 (看更多)
: 推 a2935373 : 然後在隔壁版看到V100好像還是很搶手 懷疑老黃這次 08/22 03:18 : → a2935373 : 是為了出給專業公司順便炒作一下遊戲來交代股東 不 08/22 03:18 : → a2935373 : 然RTX這幾張真的怎麼看都不像遊戲用 08/22 03:18 講到這個V100 我朋友最近分享一個 ML Benchmark Result 給我 https://github.com/u39kun/deep-learning-benchmark 先看一下 V100 和 1080 Ti 的規格差異 Model Memory CUDA Cores Tensor Cores Tesla V100 16GB HBM2 5120 640 1080 Ti 11GB GDDR5 3584 0 V100 boosted Frequency 1455 MHz 1080Ti boosted Frequency: 1582 MHz 測試結果 PyTorch 0.3.0 1080 Ti 精度 vgg16 eval vgg16 train resnet152 eval resnet152 train 32-bit 39.3ms 131.9ms 57.8ms 206.4ms 16-bit 33.5ms 117.6ms 46.9ms 193.5ms V100 精度 vgg16 eval vgg16 train resnet152 eval resnet152 train 32-bit 26.2ms 83.5ms 38.7ms 136.5ms 16-bit 12.6ms 58.8ms 21.7ms 92.9ms Tensorflow 1.4.0 1080 Ti 精度 vgg16 eval vgg16 train resnet152 eval resnet152 train 32-bit 43.4ms 131.3ms 69.6ms 300.6ms 16-bit 38.6ms 121.1ms 53.9ms 257.0ms Tensorflow 1.5.0 V100 精度 vgg16 eval vgg16 train resnet152 eval resnet152 train 32-bit 24.0ms 71.7ms 39.4ms 199.8ms 16-bit 13.6ms 49.4ms 22.6ms 147.4ms V100 TDP 300W 1080Ti TDP 275W 這樣看下來,Tensor Core 的強是表現在能耗比上面 V100 一張要 $8900 @@" -- 「保護這個城市的我,不存在弱點。 ...遊戲玩很爛...? 別說了......拜託你別再說了!!!」 ~琴葉 https://i.imgur.com/7JHnwBV.jpg
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.158.52.60 ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1534896403.A.616.html

08/22 08:10, 5年前 , 1F
有雙精度的數據嗎?
08/22 08:10, 1F

08/22 08:15, 5年前 , 2F
光能耗比就很屌了吧
08/22 08:15, 2F
這部分是有差距 我補上數據

08/22 08:31, 5年前 , 3F
老黃想直接創造市場走向啊 供給方動手影響需求....
08/22 08:31, 3F

08/22 08:49, 5年前 , 4F
都還是通用的架構不是專門跑ML的
08/22 08:49, 4F

08/22 08:50, 5年前 , 5F
所以特斯拉才要自主研發自己的晶片
08/22 08:50, 5F

08/22 08:52, 5年前 , 6F
github.com/u39kun/deep-learning-benchmark 這個吧
08/22 08:52, 6F
是這個沒錯 不好意思我以為我剛剛就貼上去了 @@"

08/22 08:56, 5年前 , 7F
FP32 不是mixed precision, tensor core沒用吧
08/22 08:56, 7F
https://www.tomshardware.com/news/nvidia-tensor-core-tesla-v100,34384.html 從這篇文章裡面的說法, According to Nvidia, V100’s Tensor Cores can provide 12x the performance of FP32 operations on the previous P100 accelerator, as well as 6x the performance of P100’s FP16 operations. 會沒用嗎? 況且如果Benchmark沒有亂寫的話,這個測試應該就類似一般使用吧?

08/22 09:04, 5年前 , 8F
你確定差異來自tensor core?
08/22 09:04, 8F

08/22 09:05, 5年前 , 9F
搞不好只是單純fp16輸出不同造成的
08/22 09:05, 9F
效能看起來跟CUDA的數量一致,但是兩者功耗差不多喔

08/22 09:08, 5年前 , 10F
還好我都用p100
08/22 09:08, 10F

08/22 09:08, 5年前 , 11F
只跑Fp16也可以減少耗電與暫存器負擔
08/22 09:08, 11F

08/22 09:09, 5年前 , 12F
V100有原生支援fp16, 1080ti沒有
08/22 09:09, 12F
hmm 兩者 FP16 的差異也著實比 FP32 大 ※ 編輯: arrenwu (73.158.52.60), 08/22/2018 09:10:57

08/22 09:11, 5年前 , 13F
大部分人大概只用到fp16(泛用指令)
08/22 09:11, 13F

08/22 09:12, 5年前 , 14F
以為v100能發揮tensor core(不泛用)
08/22 09:12, 14F

08/22 09:21, 5年前 , 15F
順著看下來想說$8900怎麼這麼便宜,原來是鎂阿XDDD
08/22 09:21, 15F

08/22 09:53, 5年前 , 16F
看起來V100沒有想像中的那麼威
08/22 09:53, 16F

08/22 10:28, 5年前 , 17F
遊戲公司出來說...遊戲未完善 後續會"陸續"完善
08/22 10:28, 17F

08/22 10:43, 5年前 , 18F
不行就砍特效啊 還什麼個完善法..
08/22 10:43, 18F

08/22 10:45, 5年前 , 19F
Patch一次不夠,那你可以再Patch一次 如果還是不夠
08/22 10:45, 19F

08/22 10:45, 5年前 , 20F
那你可以買第二張來跑光影 (疑?!PhysX是你?!
08/22 10:45, 20F

08/22 10:49, 5年前 , 21F
PhysX若還在 今天遊戲菜單要 顯卡+物理卡+光影卡 嗎
08/22 10:49, 21F

08/22 10:58, 5年前 , 22F
太累了....
08/22 10:58, 22F

08/22 11:55, 5年前 , 23F
現在ml的asic本來優勢就是來自於閹割精度來的 去質
08/22 11:55, 23F

08/22 11:55, 5年前 , 24F
疑因為fp16幹嘛 google tpu就是閹到int 8 Turing
08/22 11:55, 24F

08/22 11:55, 5年前 , 25F
這代也是開始往int4/8支援 tflops直接*4/*2
08/22 11:55, 25F

08/22 12:03, 5年前 , 26F
他們發現nchw比nhwc快...顯然是沒用到tensor core
08/22 12:03, 26F

08/22 12:04, 5年前 , 27F
我覺得是沒有用到Tensor core
08/22 12:04, 27F

08/22 12:04, 5年前 , 28F
好像要cuda9.1才支援 他測試是用9.0
08/22 12:04, 28F

08/22 12:04, 5年前 , 29F
然後我推測tensorflow Pytorch都還沒支援 至少他用
08/22 12:04, 29F

08/22 12:04, 5年前 , 30F
的版本還沒
08/22 12:04, 30F

08/22 12:06, 5年前 , 31F
上面的速度純粹是cuda core數量造成的差距
08/22 12:06, 31F

08/22 12:08, 5年前 , 32F
啊 還有HBM2
08/22 12:08, 32F

08/22 12:39, 5年前 , 33F
tensorCore不是用來加速矩陣運算的嗎?
08/22 12:39, 33F

08/22 12:52, 5年前 , 34F
樓上 ML就是矩陣運算呀
08/22 12:52, 34F

08/22 13:07, 5年前 , 35F
可惜了,這麼好的特效至少要在2070下有60fps才會普
08/22 13:07, 35F

08/22 13:07, 5年前 , 36F
及化
08/22 13:07, 36F

08/22 13:08, 5年前 , 37F
這下連本來想買2070的都不用心動了xd
08/22 13:08, 37F

08/22 13:12, 5年前 , 38F
還可以觀望一下優化 不過大概再怎麼樣頂多2080 fhd
08/22 13:12, 38F

08/22 13:12, 5年前 , 39F
@60吧
08/22 13:12, 39F

08/22 13:26, 5年前 , 40F
優化完 納下一代要賣啥? 別鬧了
08/22 13:26, 40F

08/22 13:26, 5年前 , 41F
這代在硬體上這麼激進 下一代就是製程或是優化
08/22 13:26, 41F

08/22 13:51, 5年前 , 42F
對耶,G80之後的改進的G92價格便宜點,
08/22 13:51, 42F

08/22 13:51, 5年前 , 43F
然後下一代GT200核心就非常好了,
08/22 13:51, 43F

08/22 13:51, 5年前 , 44F
無論是DX10還是PPU
08/22 13:51, 44F

08/22 14:42, 5年前 , 45F
蘿拉怎麼變醜了? !
08/22 14:42, 45F

08/22 15:01, 5年前 , 46F
用fp16沒問題,是1080ti的fp16沒強化
08/22 15:01, 46F

08/22 15:01, 5年前 , 47F
所以無法發揮更好功耗
08/22 15:01, 47F

08/22 15:35, 5年前 , 48F
為什麼回來就發現被抓出來鞭惹QQ
08/22 15:35, 48F
文章代碼(AID): #1RVAaJOM (PC_Shopping)
討論串 (同標題文章)
文章代碼(AID): #1RVAaJOM (PC_Shopping)