[問題]mini batch 和 SGD的一些問題

看板DataScience作者 (empireisme)時間4年前 (2020/03/25 12:27), 4年前編輯推噓3(307)
留言10則, 3人參與, 4年前最新討論串1/1
https://imgur.com/ZNJfGFm
最近在看 台大美女老師的TY頻道 看到的這張圖 覺得產生了以下疑惑 請問accuracy會隨mini batch 下降後又上升是甚麼原理 有任何理論闡述了為何會下降後又上升嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.75.186 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1585110434.A.A8E.html ※ 編輯: empireisme (219.91.75.186 臺灣), 03/25/2020 12:29:50

03/25 13:27, 4年前 , 1F
要搭配training time一起下去看 他意思是batch 10
03/25 13:27, 1F

03/25 13:27, 4年前 , 2F
只要train 很少的時間 就可以達到跟SGD差不多的acc.
03/25 13:27, 2F

03/25 13:28, 4年前 , 3F
後面因為size變大 矩陣的運算較久 就不能花很少的時間
03/25 13:28, 3F

03/25 13:28, 4年前 , 4F
就達到跟SGD差不多的效果
03/25 13:28, 4F

03/25 13:29, 4年前 , 5F
總結來說 batch size變大 你train很久的話 acc.還是
03/25 13:29, 5F

03/25 13:29, 4年前 , 6F
可以達到一定水準 不是只單純說batch變大 準確率變低
03/25 13:29, 6F

03/25 13:37, 4年前 , 7F
前面為什麼batch 10比SGD好的原因是: 如果算10個點的
03/25 13:37, 7F

03/25 13:37, 4年前 , 8F
gradient跟算1個點的gradient差不多快 那10一定比1好
03/25 13:37, 8F

03/25 16:49, 4年前 , 9F
瞭解!
03/25 16:49, 9F

03/26 13:45, 4年前 , 10F
推 K 大
03/26 13:45, 10F
文章代碼(AID): #1UUjsYgE (DataScience)