[分析] gradient descent
在gradient descent 的基本理論裡面
給定初始值 (eg: x=0) 的cost function J(x) (先簡化成單一變數)
經由 x_k+1= x_k - α*dJ(x)/dx // α:learning factor
可以逼近出來 x= x* (收斂點)
所以這個 dJ(x_k)/dx 變成保證能最快收斂的factor
但是我如何證明,不是其他函數(e.g. dJ(x_k)/dx + h(x) ) ?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.74.122.97
※ 文章網址: https://www.ptt.cc/bbs/Math/M.1508143828.A.1C0.html
→
10/16 16:54,
6年前
, 1F
10/16 16:54, 1F
→
10/16 21:07,
6年前
, 2F
10/16 21:07, 2F
推
10/16 21:42,
6年前
, 3F
10/16 21:42, 3F
→
10/16 22:18,
6年前
, 4F
10/16 22:18, 4F
→
10/16 22:25,
6年前
, 5F
10/16 22:25, 5F
推
10/17 15:56,
6年前
, 6F
10/17 15:56, 6F
這局部最快的原因有什麼定理名稱嗎?
我知道很簡單,大概是分析的初階內容,但是我現在想看一下,當作查用的.
※ 編輯: WalterbyJeff (203.74.122.97), 10/17/2017 17:27:11
推
10/17 22:50,
6年前
, 7F
10/17 22:50, 7F
→
10/17 22:51,
6年前
, 8F
10/17 22:51, 8F
→
10/17 22:52,
6年前
, 9F
10/17 22:52, 9F
→
10/17 22:54,
6年前
, 10F
10/17 22:54, 10F
→
10/17 22:55,
6年前
, 11F
10/17 22:55, 11F
→
10/17 22:57,
6年前
, 12F
10/17 22:57, 12F
→
10/17 22:59,
6年前
, 13F
10/17 22:59, 13F
→
10/17 23:00,
6年前
, 14F
10/17 23:00, 14F
→
10/17 23:00,
6年前
, 15F
10/17 23:00, 15F
推
10/17 23:03,
6年前
, 16F
10/17 23:03, 16F
→
10/17 23:03,
6年前
, 17F
10/17 23:03, 17F
→
10/17 23:04,
6年前
, 18F
10/17 23:04, 18F
→
10/18 18:03,
6年前
, 19F
10/18 18:03, 19F