討論串[問題] L1與L2正規化的差別
共 3 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓8(8推 0噓 21→)留言29則,0人參與, 6年前最新作者bokxko1023 (bokxko1023)時間6年前 (2018/04/05 15:44), 編輯資訊
2
0
0
內容預覽:
在網路上看了不少文章,但還是無法理解為何L1會具有稀疏的特性?這兩者的具體差別到底是什麼呢,能用gradient descent 在微分時的差別來解釋嗎?. 另外想請問大家是怎麼選正規化的權重alpha的?雖說知道是用trial and error,但數字範圍這麼廣,有沒有限縮範圍的方法呢?. 感謝

推噓4(4推 0噓 3→)留言7則,0人參與, 6年前最新作者abc2090614 (casperxdd)時間6年前 (2018/04/06 09:13), 6年前編輯資訊
0
0
0
內容預覽:
一點數學史. 大概在十幾年前. Tao跟Donoho在研究compressive sensing時. 忘記是誰發現L0 optimization可以relax成L1 optimization. 稀疏是從L0來的. 但L0-norm不是convex problem. L1是convex. 所以可以用c
(還有183個字)

推噓6(6推 0噓 3→)留言9則,0人參與, 6年前最新作者bibo9901 (function(){})()時間6年前 (2018/04/12 07:18), 6年前編輯資訊
0
0
0
內容預覽:
推文裡提到一些觀點都不太嚴謹 (可能是我想像力太差). 1. 每次梯度下降的大小是L1>L2:. 格局太小不說(離了GD推論就無效), 迭代的過程只是想當然耳,. 每一步用的梯度大小應該只影響收斂速度而非收斂到的值,. 難道是原來就有稀疏解, 只是用L1比較快?. 那麼不用L1但增加learning
(還有1501個字)
首頁
上一頁
1
下一頁
尾頁