討論串(共3篇) - [問題] L1與L2正規化的差別 - 看板DataScience

看板 [ DataScience ]

討論串[問題] L1與L2正規化的差別

共 3 篇文章

排序：最舊先 | 最新先 | 留言數 | 推文總分

內容預覽：開啟 | 關閉 | 只限未讀

首頁

尾頁

[問題] L1與L2正規化的差別

推噓8(8推 )留言29則，0人參與作者bokxko1023 (bokxko1023)時間6年前 (2018/04/05 15:44)資訊

內容預覽:

在網路上看了不少文章，但還是無法理解為何L1會具有稀疏的特性？這兩者的具體差別到底是什麼呢，能用gradient descent 在微分時的差別來解釋嗎？. 另外想請問大家是怎麼選正規化的權重alpha的？雖說知道是用trial and error，但數字範圍這麼廣，有沒有限縮範圍的方法呢？. 感謝

Re: [問題] L1與L2正規化的差別

推噓4(4推 )留言7則，0人參與作者abc2090614 (casperxdd)時間6年前 (2018/04/06 09:13)資訊

內容預覽:

一點數學史. 大概在十幾年前. Tao跟Donoho在研究compressive sensing時. 忘記是誰發現L0 optimization可以relax成L1 optimization. 稀疏是從L0來的. 但L0-norm不是convex problem. L1是convex. 所以可以用c

(還有183個字)

Re: [問題] L1與L2正規化的差別

推噓6(6推 )留言9則，0人參與作者bibo9901 (function(){})()時間6年前 (2018/04/12 07:18)資訊

內容預覽:

推文裡提到一些觀點都不太嚴謹 (可能是我想像力太差). 1. 每次梯度下降的大小是L1>L2:. 格局太小不說(離了GD推論就無效), 迭代的過程只是想當然耳,. 每一步用的梯度大小應該只影響收斂速度而非收斂到的值,. 難道是原來就有稀疏解, 只是用L1比較快?. 那麼不用L1但增加learning

(還有1501個字)

首頁

尾頁