Re: [情報] 光線追蹤太耗資源:《古墓奇兵:暗影》開
看板PC_Shopping作者arrenwu (Colors Guardian)時間5年前 (2018/08/22 08:06)推噓20(20推 0噓 28→)留言48則, 21人參與討論串3/3 (看更多)
: 推 a2935373 : 然後在隔壁版看到V100好像還是很搶手 懷疑老黃這次 08/22 03:18
: → a2935373 : 是為了出給專業公司順便炒作一下遊戲來交代股東 不 08/22 03:18
: → a2935373 : 然RTX這幾張真的怎麼看都不像遊戲用 08/22 03:18
講到這個V100 我朋友最近分享一個 ML Benchmark Result 給我
https://github.com/u39kun/deep-learning-benchmark
先看一下 V100 和 1080 Ti 的規格差異
Model Memory CUDA Cores Tensor Cores
Tesla V100 16GB HBM2 5120 640
1080 Ti 11GB GDDR5 3584 0
V100 boosted Frequency 1455 MHz
1080Ti boosted Frequency: 1582 MHz
測試結果
PyTorch 0.3.0
1080 Ti
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 39.3ms 131.9ms 57.8ms 206.4ms
16-bit 33.5ms 117.6ms 46.9ms 193.5ms
V100
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 26.2ms 83.5ms 38.7ms 136.5ms
16-bit 12.6ms 58.8ms 21.7ms 92.9ms
Tensorflow 1.4.0
1080 Ti
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 43.4ms 131.3ms 69.6ms 300.6ms
16-bit 38.6ms 121.1ms 53.9ms 257.0ms
Tensorflow 1.5.0
V100
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 24.0ms 71.7ms 39.4ms 199.8ms
16-bit 13.6ms 49.4ms 22.6ms 147.4ms
V100 TDP 300W
1080Ti TDP 275W
這樣看下來,Tensor Core 的強是表現在能耗比上面
V100 一張要 $8900 @@"
--
「保護這個城市的我,不存在弱點。
...遊戲玩很爛...? 別說了......拜託你別再說了!!!」 ~琴葉
https://i.imgur.com/7JHnwBV.jpg
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.158.52.60
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1534896403.A.616.html
→
08/22 08:10,
5年前
, 1F
08/22 08:10, 1F
推
08/22 08:15,
5年前
, 2F
08/22 08:15, 2F
這部分是有差距 我補上數據
推
08/22 08:31,
5年前
, 3F
08/22 08:31, 3F
→
08/22 08:49,
5年前
, 4F
08/22 08:49, 4F
→
08/22 08:50,
5年前
, 5F
08/22 08:50, 5F
推
08/22 08:52,
5年前
, 6F
08/22 08:52, 6F
是這個沒錯 不好意思我以為我剛剛就貼上去了 @@"
→
08/22 08:56,
5年前
, 7F
08/22 08:56, 7F
https://www.tomshardware.com/news/nvidia-tensor-core-tesla-v100,34384.html
從這篇文章裡面的說法,
According to Nvidia, V100’s Tensor Cores can provide 12x the performance of
FP32 operations on the previous P100 accelerator, as well as 6x the
performance of P100’s FP16 operations.
會沒用嗎?
況且如果Benchmark沒有亂寫的話,這個測試應該就類似一般使用吧?
→
08/22 09:04,
5年前
, 8F
08/22 09:04, 8F
→
08/22 09:05,
5年前
, 9F
08/22 09:05, 9F
效能看起來跟CUDA的數量一致,但是兩者功耗差不多喔
推
08/22 09:08,
5年前
, 10F
08/22 09:08, 10F
→
08/22 09:08,
5年前
, 11F
08/22 09:08, 11F
→
08/22 09:09,
5年前
, 12F
08/22 09:09, 12F
hmm 兩者 FP16 的差異也著實比 FP32 大
※ 編輯: arrenwu (73.158.52.60), 08/22/2018 09:10:57
→
08/22 09:11,
5年前
, 13F
08/22 09:11, 13F
→
08/22 09:12,
5年前
, 14F
08/22 09:12, 14F
推
08/22 09:21,
5年前
, 15F
08/22 09:21, 15F
推
08/22 09:53,
5年前
, 16F
08/22 09:53, 16F
→
08/22 10:28,
5年前
, 17F
08/22 10:28, 17F
推
08/22 10:43,
5年前
, 18F
08/22 10:43, 18F
推
08/22 10:45,
5年前
, 19F
08/22 10:45, 19F
→
08/22 10:45,
5年前
, 20F
08/22 10:45, 20F
→
08/22 10:49,
5年前
, 21F
08/22 10:49, 21F
推
08/22 10:58,
5年前
, 22F
08/22 10:58, 22F
推
08/22 11:55,
5年前
, 23F
08/22 11:55, 23F
→
08/22 11:55,
5年前
, 24F
08/22 11:55, 24F
→
08/22 11:55,
5年前
, 25F
08/22 11:55, 25F
→
08/22 12:03,
5年前
, 26F
08/22 12:03, 26F
推
08/22 12:04,
5年前
, 27F
08/22 12:04, 27F
→
08/22 12:04,
5年前
, 28F
08/22 12:04, 28F
→
08/22 12:04,
5年前
, 29F
08/22 12:04, 29F
→
08/22 12:04,
5年前
, 30F
08/22 12:04, 30F
推
08/22 12:06,
5年前
, 31F
08/22 12:06, 31F
推
08/22 12:08,
5年前
, 32F
08/22 12:08, 32F
→
08/22 12:39,
5年前
, 33F
08/22 12:39, 33F
推
08/22 12:52,
5年前
, 34F
08/22 12:52, 34F
推
08/22 13:07,
5年前
, 35F
08/22 13:07, 35F
→
08/22 13:07,
5年前
, 36F
08/22 13:07, 36F
→
08/22 13:08,
5年前
, 37F
08/22 13:08, 37F
推
08/22 13:12,
5年前
, 38F
08/22 13:12, 38F
→
08/22 13:12,
5年前
, 39F
08/22 13:12, 39F
推
08/22 13:26,
5年前
, 40F
08/22 13:26, 40F
→
08/22 13:26,
5年前
, 41F
08/22 13:26, 41F
推
08/22 13:51,
5年前
, 42F
08/22 13:51, 42F
→
08/22 13:51,
5年前
, 43F
08/22 13:51, 43F
→
08/22 13:51,
5年前
, 44F
08/22 13:51, 44F
推
08/22 14:42,
5年前
, 45F
08/22 14:42, 45F
→
08/22 15:01,
5年前
, 46F
08/22 15:01, 46F
→
08/22 15:01,
5年前
, 47F
08/22 15:01, 47F
推
08/22 15:35,
5年前
, 48F
08/22 15:35, 48F
討論串 (同標題文章)