Re: [問題] logistic regression vs SVM

看板DataScience作者 (pete)時間5年前 (2018/12/13 11:51), 5年前編輯推噓4(404)
留言8則, 4人參與, 5年前最新討論串3/3 (看更多)
※ 引述《jikett (jikeZ)》之銘言: : 各位大神前輩好,小弟不才,最近在面試遇到一個有趣的問題, : 面試官問說data在什麼情況下會用logistic regression,什麼 : 情況下會用SVM? : 當下有點愣住,若談boundary的特性,兩個都可以透過kernel : trick轉成nonlinear。印象中以前看蠻多例子都會用 : K-fold cross validation做比較,好像沒有一個通則說什麼情 : 形下哪一個一定會優於另一個。 : 後來跟一個Phd朋友討論後,也只得到說logistic regression在 : data seperable情況下,MLE會是無窮大,但在practical中並不 : 常見完全seperable的data?! : 另外有想到說loss的差異,但其實hinge loss跟logistic regression : 的loss(sigmoid+cross entropy)似乎也只有微小差異? 且loss的 : 不同似乎也不是面試官想問的data特性? : 最後只想到multi-class,LR有softmax推廣到multi-class,但SVM : 也可以做1-vs-all SVMs。不曉得各位大神前輩們對於這兩者的比較 : 適用於什麼樣的data有什麼看法? 先謝謝各位大神前輩! 你好 我最近在唸Python 機器學習 第二版 剛好有看到跟你這個問題相關的內容 在 84頁 有這些內容: 邏輯斯迴歸 與支持向量機的比較 在實際的分類工作中,線性邏輯斯迴歸與線性支援向量機 常常會產生非常相似的結果。但是邏輯斯迴歸試圖最佳化訓練數據集的條件概似, 這會使邏輯斯迴歸比支援向量機更容易傾向於離群值。支援向量機主要在意的是 那些非常接近決策邊界(支援向量)的那些點。邏輯斯迴歸有另一個優點是,他是一個簡 單的模型,可以更容易的實作。另外,邏輯斯迴歸模型可以很容易的完成更新處理, 這在處裡串流數據的時候,是非常吸引人的優點。 從上述內容 似乎兩者差異在於邏輯斯迴歸會更傾向於離群值? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.127.233.55 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1544673093.A.B2F.html ※ 編輯: peter308 (140.127.233.55), 12/13/2018 11:53:43

12/13 13:42, 5年前 , 1F
邏輯迴歸用 最大似然估計 最佳化,因此,容易受到離
12/13 13:42, 1F

12/13 13:42, 5年前 , 2F
群值影響。SVM 則是能夠利用Trade-off的超參數,降
12/13 13:42, 2F

12/13 13:42, 5年前 , 3F
低 loss 的影響,進而減低離群值的影響。
12/13 13:42, 3F

12/14 12:16, 5年前 , 4F
FC+L2 loss=SVM?
12/14 12:16, 4F

12/14 14:58, 5年前 , 5F
SVM 容易解釋模型
12/14 14:58, 5F

12/14 15:12, 5年前 , 6F
此外,新增资料時,LR 肯定要重跑,SVM 則不一定
12/14 15:12, 6F

12/21 18:31, 5年前 , 7F
Hinge Function的特性造成 SVM比較能專注在辨析邊界
12/21 18:31, 7F

12/21 18:31, 5年前 , 8F
的樣本
12/21 18:31, 8F
文章代碼(AID): #1S4TT5il (DataScience)
文章代碼(AID): #1S4TT5il (DataScience)