[問題] 驗證的accuarcy完全沒變

看板DataScience作者 (片翼碎夢)時間1年前 (2023/03/09 12:42), 編輯推噓6(6018)
留言24則, 7人參與, 1年前最新討論串1/1
在練習用VGG16做分類,我用這篇的程式碼下去改的https://reurl.cc/RvvG9x VGG16的部分和他這篇不一樣不是用預設而是用寫的 問題在於,進行訓練的時候Testing acc一直都是0.500,而acc都在0.5附近上下跳動 也就是說好像根本沒有學習到 進行訓練的程式碼如下: (基本與那篇相同,這裡只是將原文中的C改成model,並且把label的type改成tensor) if __name__ == '__main__': for epoch in range(epochs): start_time = time.time() iter = 0 correct_train, total_train = 0, 0 correct_test, total_test = 0, 0 train_loss_C = 0.0 model.train() # 設定 train 或 eval print('epoch: ' + str(epoch + 1) + ' / ' + str(epochs)) # --------------------------- # Training Stage # --------------------------- for i, (x, label) in enumerate(train_dataloader) : label = label.type(torch.LongTensor) x, label = x.to(device), label.to(device) optimizer_C.zero_grad() # 清空梯度 train_output = model(x) train_loss = criterion(train_output, label) # 計算 loss train_loss.backward() # 將 loss 反向傳播 optimizer_C.step() # 更新權重 # 計算訓練資料的準確度 (correct_train / total_train) _, predicted = torch.max(train_output.data, 1) total_train += label.size(0) correct_train += (predicted == label).sum() train_loss_C += train_loss.item() iter += 1 print('Training epoch: %d / loss_C: %.3f | acc: %.3f' % \ (epoch + 1, train_loss_C / iter, correct_train / total_train)) # -------------------------- # Testing Stage # -------------------------- model.eval() # 設定 train 或 eval for i, (x, label) in enumerate(test_dataloader) : with torch.no_grad(): label = label.type(torch.LongTensor) x, label = x.to(device), label.to(device) test_output = model(x) test_loss = criterion(test_output, label) # 計算 loss # 計算測試資料的準確度 (correct_test / total_test) _, predicted = torch.max(test_output.data, 1) total_test += label.size(0) correct_test += (predicted == label).sum() print('Testing acc: %.3f' % (correct_test / total_test)) train_acc.append(100 * (correct_train / total_train).cpu()) # training accuracy test_acc.append(100 * (correct_test / total_test).cpu()) # testing accuracy loss_epoch_C.append((train_loss_C / iter)) # loss end_time = time.time() print('Cost %.3f(secs)' % (end_time - start_time)) 指定epochs只跑3次,得到以下結果: epoch: 1 / 3 Training epoch: 1 / loss_C: 0.693 | acc: 0.514 Testing acc: 0.500 Cost 21.822(secs) epoch: 2 / 3 Training epoch: 2 / loss_C: 0.693 | acc: 0.475 Testing acc: 0.500 Cost 23.002(secs) epoch: 3 / 3 Training epoch: 3 / loss_C: 0.693 | acc: 0.476 Testing acc: 0.500 Cost 22.669(secs) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.144.160 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1678336929.A.EBC.html

03/09 17:53, 1年前 , 1F
我猜是 train 壞了,調看看 lr 或變數印出來看看有沒有
03/09 17:53, 1F

03/09 17:53, 1年前 , 2F
bug
03/09 17:53, 2F

03/09 19:58, 1年前 , 3F
沒有設定optimizer的程式嗎?
03/09 19:58, 3F

03/09 22:53, 1年前 , 4F
複製貼上沒錯的話就是VGG寫錯了
03/09 22:53, 4F

03/09 23:19, 1年前 , 5F
optimizer有寫只是放在更前面指定 lr調過幾次都不影
03/09 23:19, 5F

03/09 23:19, 1年前 , 6F
響這個問題
03/09 23:19, 6F

03/09 23:19, 1年前 , 7F
主要是擔心因為我看到有人說是pytorch使用gpu時造成
03/09 23:19, 7F

03/09 23:19, 1年前 , 8F
的bug(不過他的案例是不要用adam就行 但我這邊一開
03/09 23:19, 8F

03/09 23:19, 1年前 , 9F
始用的就是sgd)
03/09 23:19, 9F

03/10 00:27, 1年前 , 10F
train loss 完全沒變阿, 把第一個batch資料全印出來比對
03/10 00:27, 10F

03/10 19:24, 1年前 , 11F
嗚嗚想說換另一個人寫的vgg下來代,結果gpu記憶體
03/10 19:24, 11F

03/10 19:25, 1年前 , 12F
不足,請問3070真的還不夠vgg16用嗎?
03/10 19:25, 12F

03/10 23:28, 1年前 , 13F
你 batch_size 開多少?3070 只有 8GB當然容易爆開
03/10 23:28, 13F

03/11 08:04, 1年前 , 14F
3070應該是可以train vgg16的吧,但這東西容易炸
03/11 08:04, 14F

03/11 08:04, 1年前 , 15F
建議看一下板規2-2
03/11 08:04, 15F

03/11 08:07, 1年前 , 16F
其實optimizer可能影響這問題,我寫過vgg16...
03/11 08:07, 16F

03/11 08:37, 1年前 , 17F
剛剛卜一卦,卦象告訴我你的問題是"梯度消失"
03/11 08:37, 17F

03/11 13:35, 1年前 , 18F
感謝建議 我看看怎麼解
03/11 13:35, 18F

03/13 07:19, 1年前 , 19F
其實如果還是不行,可以用pastebin把完整程式貼上來(?
03/13 07:19, 19F

03/18 07:06, 1年前 , 20F
梯度消失也很難消失得這麼徹底到好像完全沒做back propagat
03/18 07:06, 20F

03/18 07:06, 1年前 , 21F
ion一樣
03/18 07:06, 21F

03/18 07:06, 1年前 , 22F
壞的這麼漂亮的狀況我投bug一票
03/18 07:06, 22F

03/18 08:26, 1年前 , 23F
之前試過lr bs設錯會這樣,才想說讓他看2-2貼完整的程式
03/18 08:26, 23F

03/18 08:28, 1年前 , 24F
bug有機會,只是目前貼出來的部分看起來沒問題
03/18 08:28, 24F
文章代碼(AID): #1a2MEXwy (DataScience)