Re: AI大師請進已回收

看板Marginalman作者 (搖滾少女!! 活力棉花糖!!)時間1年前 (2025/01/22 18:12), 編輯推噓0(001)
留言1則, 1人參與, 1年前最新討論串3/5 (看更多)
從你描述的情況來看,可能有幾個因素影響了你的訓練時間,並且你目前的模型大小和訓練 時間的觀察並不完全符合預期。 訓練集規模過小: 你提到使用的是Fashion MNIST,它的資料集規模相對較小(只有60,000 張訓練圖片)。這樣的資料集可能會導致資料加載成為瓶頸,尤其是如果你使用的是硬盤來 讀取資料,或者如果IO操作的效率不高,這會影響到訓練的總時間。在訓練過程中,模型的 計算時間相對較短,而IO時間(資料加載和預處理)可能佔據了相當大的一部分。 訓練過程中的計算瓶頸: 雖然ResNet34比ResNet18的參數量多,但其運算複雜度和每個epo ch的計算時間可能並不完全線性地隨著參數數量的增加而增加。ResNet34雖然參數更多,但 在某些情況下,可能由於層數增多和網絡架構的不同,計算效率會有所不同,特別是如果使 用了不同類型的操作(例如,ResNet的skip connections等)。如果訓練過程中存在瓶頸, 可能會在不同架構上造成時間差異。 MNASNet的設計: 你提到MNASNet系列的訓練時間較長。MNASNet是為移動設備優化的架構, 通常會有較少的參數和較低的計算量,但它會利用一些特殊的策略(例如深度可分離卷積等 )來達到較好的效率。在這些架構中,某些操作的計算和GPU的利用可能會和ResNet不同, 進而影響實際的訓練時間。 GPU效能利用: 你的訓練使用的是單張A100,理論上A100的計算效能應該很高,但如果模型 的運算不夠密集,或者計算圖中存在一些瓶頸,這可能會導致GPU無法充分發揮其性能,從 而導致時間表現不如預期。特別是像MNASNet這類專為效率設計的架構,其運行效率可能不 如專為高性能計算設計的架構(如ResNet系列)。 批次大小(Batch Size): 批次大小對訓練時間有很大的影響。較小的批次大小可能導致G PU資源的利用率較低,進而影響訓練時間。如果你在使用這些不同模型時沒有調整批次大小 ,這也可能會造成時間上的差異。 總結建議: 檢查資料加載速度:確保資料加載和預處理不會成為瓶頸,特別是在資料集較小的情況下, I/O操作可能會佔據大部分時間。 觀察GPU效能:確保A100的利用率達到預期,可以使用工具如nvidia-smi來監控GPU的使用情 況。 調整批次大小:適當調整批次大小,根據你的硬體配置來獲得最佳訓練效率。 進一步分析運算瓶頸:使用如nvprof、TensorBoard等工具來分析具體的運算瓶頸,是否存 在某些層或操作佔用過多時間。 如果資料集和硬體配置較小,且計算複雜度相對較低,那麼可能會有更多時間花費在I/O或G PU資源未能完全利用上。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.164.89.54 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1737540761.A.71D.html

01/22 18:16, 1年前 , 1F
謝謝你恰特居批踢
01/22 18:16, 1F
文章代碼(AID): #1daCIPST (Marginalman)
文章代碼(AID): #1daCIPST (Marginalman)