[分析] gradient descent

看板Math作者 (Be the field)時間6年前 (2017/10/16 16:50), 6年前編輯推噓4(4015)
留言19則, 6人參與, 6年前最新討論串1/1
在gradient descent 的基本理論裡面 給定初始值 (eg: x=0) 的cost function J(x) (先簡化成單一變數) 經由 x_k+1= x_k - α*dJ(x)/dx // α:learning factor 可以逼近出來 x= x* (收斂點) 所以這個 dJ(x_k)/dx 變成保證能最快收斂的factor 但是我如何證明,不是其他函數(e.g. dJ(x_k)/dx + h(x) ) ? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.74.122.97 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1508143828.A.1C0.html

10/16 16:54, 6年前 , 1F
唯一性
10/16 16:54, 1F

10/16 21:07, 6年前 , 2F
gradient descent 沒有保證"最快"收斂阿
10/16 21:07, 2F

10/16 21:42, 6年前 , 3F
樓上突破盲點 不知道原PO是不是也正在修ML 我剛好是
10/16 21:42, 3F

10/16 22:18, 6年前 , 4F
其實感覺原po是要問別的問題只是條件問題沒說清楚
10/16 22:18, 4F

10/16 22:25, 6年前 , 5F
gradient只有保證在這個點的方向增加最快而已
10/16 22:25, 5F

10/17 15:56, 6年前 , 6F
只有local最快 跟斜率有點像 把alpha看成變數
10/17 15:56, 6F
這局部最快的原因有什麼定理名稱嗎? 我知道很簡單,大概是分析的初階內容,但是我現在想看一下,當作查用的. ※ 編輯: WalterbyJeff (203.74.122.97), 10/17/2017 17:27:11

10/17 22:50, 6年前 , 7F
應該沒有什麼定理在講這件事
10/17 22:50, 7F

10/17 22:51, 6年前 , 8F
為什麼 local 最快的原因,和負的gradient指向的方
10/17 22:51, 8F

10/17 22:52, 6年前 , 9F
向是 f(x) 高度降低最快的方向是一樣的
10/17 22:52, 9F

10/17 22:54, 6年前 , 10F
而因為在所有方向導數的方向中,gradient下降最快
10/17 22:54, 10F

10/17 22:55, 6年前 , 11F
locally 往其他方向都不會是最好的選擇
10/17 22:55, 11F

10/17 22:57, 6年前 , 12F
從這邊也看得出gradient method的一些確定
10/17 22:57, 12F

10/17 22:59, 6年前 , 13F
有可能被函數的圖形影響而繞遠路、α 太小的話走一
10/17 22:59, 13F

10/17 23:00, 6年前 , 14F
半就會停在local minimum...等問題。
10/17 23:00, 14F

10/17 23:00, 6年前 , 15F
*一些缺點
10/17 23:00, 15F

10/17 23:03, 6年前 , 16F
所以你如果整體來看,如果是要收斂到你要的點
10/17 23:03, 16F

10/17 23:03, 6年前 , 17F
gradient method不一定會是收斂最快的,
10/17 23:03, 17F

10/17 23:04, 6年前 , 18F
甚至會不會收斂也沒有保證 收斂了也不一定是你要的
10/17 23:04, 18F

10/18 18:03, 6年前 , 19F
thanks, appreciate your explanation!:D
10/18 18:03, 19F
文章代碼(AID): #1Pv7BK70 (Math)