Re: AI大師請進已回收

看板Marginalman作者surimodo (搖滾少女!! 活力棉花糖!!)時間1年前 (2025/01/22 18:12)推噓0(0推 0噓 1→)

留言1則, 1人參與討論串3/5 (看更多)

從你描述的情況來看，可能有幾個因素影響了你的訓練時間，並且你目前的模型大小和訓練時間的觀察並不完全符合預期。訓練集規模過小：你提到使用的是Fashion MNIST，它的資料集規模相對較小（只有60,000 張訓練圖片）。這樣的資料集可能會導致資料加載成為瓶頸，尤其是如果你使用的是硬盤來讀取資料，或者如果IO操作的效率不高，這會影響到訓練的總時間。在訓練過程中，模型的計算時間相對較短，而IO時間（資料加載和預處理）可能佔據了相當大的一部分。訓練過程中的計算瓶頸：雖然ResNet34比ResNet18的參數量多，但其運算複雜度和每個epo ch的計算時間可能並不完全線性地隨著參數數量的增加而增加。ResNet34雖然參數更多，但在某些情況下，可能由於層數增多和網絡架構的不同，計算效率會有所不同，特別是如果使用了不同類型的操作（例如，ResNet的skip connections等）。如果訓練過程中存在瓶頸，可能會在不同架構上造成時間差異。 MNASNet的設計：你提到MNASNet系列的訓練時間較長。MNASNet是為移動設備優化的架構，通常會有較少的參數和較低的計算量，但它會利用一些特殊的策略（例如深度可分離卷積等）來達到較好的效率。在這些架構中，某些操作的計算和GPU的利用可能會和ResNet不同，進而影響實際的訓練時間。 GPU效能利用：你的訓練使用的是單張A100，理論上A100的計算效能應該很高，但如果模型的運算不夠密集，或者計算圖中存在一些瓶頸，這可能會導致GPU無法充分發揮其性能，從而導致時間表現不如預期。特別是像MNASNet這類專為效率設計的架構，其運行效率可能不如專為高性能計算設計的架構（如ResNet系列）。批次大小（Batch Size）：批次大小對訓練時間有很大的影響。較小的批次大小可能導致G PU資源的利用率較低，進而影響訓練時間。如果你在使用這些不同模型時沒有調整批次大小，這也可能會造成時間上的差異。總結建議：檢查資料加載速度：確保資料加載和預處理不會成為瓶頸，特別是在資料集較小的情況下， I/O操作可能會佔據大部分時間。觀察GPU效能：確保A100的利用率達到預期，可以使用工具如nvidia-smi來監控GPU的使用情況。調整批次大小：適當調整批次大小，根據你的硬體配置來獲得最佳訓練效率。進一步分析運算瓶頸：使用如nvprof、TensorBoard等工具來分析具體的運算瓶頸，是否存在某些層或操作佔用過多時間。如果資料集和硬體配置較小，且計算複雜度相對較低，那麼可能會有更多時間花費在I/O或G PU資源未能完全利用上。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.164.89.54 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1737540761.A.71D.html

→

Satoman

01/22 18:16, 1年前 , 1^F

01/22 18:16, 1^F

‣ 返回看板[ Marginalman ] 邊緣

‣ 更多 surimodo 的文章

文章代碼(AID): #1daCIPST (Marginalman)