[心得] 3080 深度學習 GDDR6X過熱

看板PC_Shopping作者 (人非腎鹹)時間1年前 (2022/07/13 18:59), 編輯推噓41(43263)
留言108則, 54人參與, 1年前最新討論串1/1
先講結論: GDDR6X很燙,燙了就很不穩定 打遊戲沒事,但跑Deep learning訓練會壞掉 Deep learning這種應用建議直上帝版,甚至水冷版 以下是debug經驗分享: 之前從EVGA官網買到了一張便宜的3080 本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉 這個問題總是100%復現,有時早點掛,有時晚點掛 一開始以為是卡壞了,但拿去打APEX又都沒事 (2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的) 研究了一下這代卡的技術,通病就是GDDR6X很燙 所以我開始懷疑是顯存問題 所以我我用了一個簡單的訓練腳本來觀察卡的各項參數 (需要請自取 https://github.com/exeex/pytorch-cifar/releases/tag/v1.0) 訓練剛開始,顯存頻率會直接拉滿到9200MHz上下 然後開始爆熱,接著就掛掉。 於是我用Afterburner將頻率下修200MHz,就不會掛了 但是跑大約10分鐘後 他就會自動降頻到5000MHz... 此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3 有夠虧 Afterburner設定如圖: https://imgur.com/aTHIPs4
降頻示意圖 https://imgur.com/yvawLe3
現在在研究,看有沒有可以長時間讓他保持高頻的方法.. 比如用8000MHz,至少沒那麼虧 或是有沒有帝版的同學可以跑看看我這份code 看是不是丐版散熱太爛的問題 PS. 為什麼不用Ubuntu 因為不能打Apex和我只會用Afterburner(ubuntu沒有) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.178.29 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1657709986.A.B44.html

07/13 19:01, 1年前 , 1F
因為你不是拿ROG
07/13 19:01, 1F

07/13 19:02, 1年前 , 2F
結論:丐版散熱爛
07/13 19:02, 2F

07/13 19:02, 1年前 , 3F
問題就是丐版
07/13 19:02, 3F

07/13 19:02, 1年前 , 4F
這就跟挖礦一樣道理
07/13 19:02, 4F

07/13 19:04, 1年前 , 5F
懷疑你買到卡皇 以前3080ti XC沒碰到這問題
07/13 19:04, 5F

07/13 19:06, 1年前 , 6F
這就是為什麼不推薦3080以上拿丐版的原因
07/13 19:06, 6F

07/13 19:06, 1年前 , 7F
建議風扇拉滿 Auto最高也只會跑到50%而已
07/13 19:06, 7F

07/13 19:10, 1年前 , 8F
換散熱貼,風扇轉到最快
07/13 19:10, 8F

07/13 19:10, 1年前 , 9F
散熱貼用利民或是萊爾德
07/13 19:10, 9F

07/13 19:11, 1年前 , 10F
3080丐版+1 直接PL鎖在250以下比較不會降頻
07/13 19:11, 10F

07/13 19:16, 1年前 , 11F
還有你temperature limit拉高一點
07/13 19:16, 11F

07/13 19:17, 1年前 , 12F
丐版散熱爛 你可以學學上面那位仁兄改裝散熱貼
07/13 19:17, 12F

07/13 19:25, 1年前 , 13F
power limit拉105%比較不會降頻,但你還是得去換散熱貼,
07/13 19:25, 13F

07/13 19:25, 1年前 , 14F
甚至是改銅片,板上之前有人分享
07/13 19:25, 14F

07/13 19:25, 1年前 , 15F
我猜是背板的記憶體過熱啦,畢竟只有導熱貼沒接觸散
07/13 19:25, 15F

07/13 19:25, 1年前 , 16F
熱器
07/13 19:25, 16F

07/13 19:26, 1年前 , 17F
之前有看過礦老闆背板也改風扇的
07/13 19:26, 17F

07/13 19:27, 1年前 , 18F
以後直接賭一把買水冷的吧
07/13 19:27, 18F

07/13 19:28, 1年前 , 19F
這篇是認真的嗎,大家的留言是認真的嗎?
07/13 19:28, 19F

07/13 19:28, 1年前 , 20F
樓下支語警察
07/13 19:28, 20F

07/13 19:29, 1年前 , 21F
3080沒有背面記憶體吧 = =
07/13 19:29, 21F

07/13 19:29, 1年前 , 22F
都沒看到錯誤訊息的內容,然後冒出了過熱的實驗跟結論
07/13 19:29, 22F

07/13 19:31, 1年前 , 23F
這前因後果完全是鬼轉耶
07/13 19:31, 23F

07/13 19:35, 1年前 , 24F
丐板就是只能拿來打遊戲用ok而已
07/13 19:35, 24F

07/13 19:38, 1年前 , 25F
開側板用電風扇吹啊==
07/13 19:38, 25F

07/13 19:41, 1年前 , 26F
不然拿卡去挖礦
07/13 19:41, 26F

07/13 19:41, 1年前 , 27F
用colab pro訓練16gb batch size 可以設大點
07/13 19:41, 27F

07/13 19:43, 1年前 , 28F
為什麼不直接找EVGA去信詢問==
07/13 19:43, 28F

07/13 19:43, 1年前 , 29F
自己改散熱啊
07/13 19:43, 29F

07/13 19:45, 1年前 , 30F
三星製程 + 美光6X不換 就不買
07/13 19:45, 30F

07/13 19:45, 1年前 , 31F
錯誤訊息是什麼
07/13 19:45, 31F

07/13 19:46, 1年前 , 32F
錯誤訊息就是cuda 讀資料無回應 整個掛掉
07/13 19:46, 32F

07/13 19:46, 1年前 , 33F
螢幕黑屏 顯卡自動重啟
07/13 19:46, 33F

07/13 19:47, 1年前 , 34F
照這測試、只打遊戲拿丐版就非常足夠了阿
07/13 19:47, 34F

07/13 19:48, 1年前 , 35F
我的經驗這種都是顯存錯誤居多
07/13 19:48, 35F

07/13 19:48, 1年前 , 36F
如果卡出廠有小超,說不定是核心時脈的問題呀
07/13 19:48, 36F

07/13 19:50, 1年前 , 37F
顯存降頻跑就沒事 那87%是顯存問題
07/13 19:50, 37F

07/13 19:51, 1年前 , 38F
你風扇調成100%看看
07/13 19:51, 38F

07/13 19:52, 1年前 , 39F
你先測個溫度吧
07/13 19:52, 39F
還有 29 則推文
07/13 23:28, 1年前 , 69F
技嘉的水冷一樣熱情
07/13 23:28, 69F

07/13 23:40, 1年前 , 70F
EVGA 3080 XC3 Ultra 跑沒問題耶
07/13 23:40, 70F

07/13 23:40, 1年前 , 71F

07/13 23:41, 1年前 , 72F
環境是 WSL2 Python 3.8.5 PyTorch 1.12.0
07/13 23:41, 72F

07/13 23:54, 1年前 , 73F
我的卡也沒問題一樣XC3
07/13 23:54, 73F

07/13 23:54, 1年前 , 74F
我覺得是你的殼太悶
07/13 23:54, 74F

07/14 00:13, 1年前 , 75F
仔細看了一下你訓練剛開始的圖 為什麼你 Test 的速度只有
07/14 00:13, 75F

07/14 00:13, 1年前 , 76F
我的一半?背景有跑什麼東西嗎 我上面圖的結果背景還有跑
07/14 00:13, 76F

07/14 00:13, 1年前 , 77F
Wallpaper engine
07/14 00:13, 77F

07/14 00:15, 1年前 , 78F
然後題外話 這種單純比較 model 的實驗建議固定 random se
07/14 00:15, 78F

07/14 00:15, 1年前 , 79F
ed 結果會更有說服力
07/14 00:15, 79F

07/14 00:26, 1年前 , 80F

07/14 00:27, 1年前 , 81F
第二次跑 把 Wallpaper engine 暫停,code 裡面打開 torch
07/14 00:27, 81F

07/14 00:27, 1年前 , 82F
AMP 一樣沒問題 GPU 降了三度 test accuracy 還高了一點
07/14 00:27, 82F

07/14 00:27, 1年前 , 83F
07/14 00:27, 83F

07/14 01:21, 1年前 , 84F
該拍機殼了
07/14 01:21, 84F

07/14 01:28, 1年前 , 85F
power幾瓦?
07/14 01:28, 85F

07/14 02:30, 1年前 , 86F
想噓顯存,不忍噓
07/14 02:30, 86F

07/14 02:57, 1年前 , 87F
建議直接抄隔壁版同一張3080的挖礦參數
07/14 02:57, 87F

07/14 02:58, 1年前 , 88F
顯存別超就好,記得降壓
07/14 02:58, 88F

07/14 02:59, 1年前 , 89F
散熱墊換一換,開冷氣給它吹,搞好一點的機殼,沒了
07/14 02:59, 89F

07/14 03:01, 1年前 , 90F
降壓可以有效降低溫度,至於卡能降多低得自己測
07/14 03:01, 90F

07/14 03:03, 1年前 , 91F
開冷氣開側板用電風扇直接送風再觀察溫度
07/14 03:03, 91F

07/14 05:13, 1年前 , 92F
顯存是什麼
07/14 05:13, 92F

07/14 08:16, 1年前 , 93F
丐版爛
07/14 08:16, 93F

07/14 08:39, 1年前 , 94F
換AC扇直吹阿
07/14 08:39, 94F

07/14 08:56, 1年前 , 95F
冷氣不夠冷可以用液態氮
07/14 08:56, 95F

07/14 10:33, 1年前 , 96F
剛剛用evga 3080 ftw測了15分鐘,沒有遇到問題,也沒
07/14 10:33, 96F

07/14 10:33, 1年前 , 97F
有降頻
07/14 10:33, 97F

07/14 11:57, 1年前 , 98F
看來是原PO的問題 還想陰我大哥
07/14 11:57, 98F

07/14 12:13, 1年前 , 99F
不是呀...又不是每個實驗室都有錢到翻掉
07/14 12:13, 99F

07/14 12:14, 1年前 , 100F
哪來那麼多Tesla能跑,配的PC很多都用消費級的卡
07/14 12:14, 100F

07/14 12:15, 1年前 , 101F
就沒聽過有人講消費級的卡沒特別改的狀況下硬體出事的
07/14 12:15, 101F

07/14 12:16, 1年前 , 102F
過熱頂多就降頻跑慢一點,目前也沒聽到會當到重開
07/14 12:16, 102F

07/14 12:16, 1年前 , 103F
所以才一直問錯誤訊息是什麼,說不定根本是搞錯方向
07/14 12:16, 103F

07/14 12:17, 1年前 , 104F
如果真的是出廠硬體就有問題,就換一張新的唄
07/14 12:17, 104F

07/14 12:18, 1年前 , 105F
這種繞法也不是什麼根本上的解決之道
07/14 12:18, 105F

07/14 15:06, 1年前 , 106F
3090、80ti都拿丐版 lab甚至沒有24小時冷氣,沒聽過出錯的
07/14 15:06, 106F

07/14 16:02, 1年前 , 107F
整串看下來丐版玩遊戲很ok啊 3080可以省個3000元
07/14 16:02, 107F

07/15 00:31, 1年前 , 108F
看起來丐版遊戲以外也沒問題啊 只有原PO那張怪怪的吧
07/15 00:31, 108F
文章代碼(AID): #1YpgMYj4 (PC_Shopping)