[問題] Cross-validation的問題

看板Statistics作者 (horby)時間18年前 (2007/11/19 20:00), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
這幾天看模型選擇遇到的問題 在衡量模型複雜度與預測誤差之下要找一個 turning point, 來做為我們模型最後選擇的依據。 書上以cross-validation方式來找這個turning point, 他計算出每個turning point下的 CV error 以及其對應的 standard error。 圖形以CV error為縱軸,truning parameter為橫軸(依不同模型, 可能為Subset size, Shrinkage Factors, Degrees of Freedom) 模型越往右邊越複雜。CV curve 越往右越低,但不一定是單調。 問題是我沒有很懂書上寫的最適turning point是怎麼找的。 我引用書上不同地方寫的兩段話,這兩段講的是同一個意思。 We have used the 'one-standard-error' rule -- we pick the most parsimonious model within one standard error of the minimum. Often, a 'one-standard-error' rule is used with cross-validation, in which we choose the most parsimonious model whose error is no more than one standard error above the error of the best model. 我有幾個問題 1. 看起來這種turning point的找法是不是屬於一種經驗法則阿,不像AIC,BIC 有一個明確的值來提供我們做判斷。 2. 我對第一段的理解是:對所有turning point計算出CV error。 在所計算出來最小的 那個CV error 加一個標準差,以這點做一與橫軸的平行線,則其與CV curve相交 的點所對應的turning point,就是我們要找的解。(希望大家可以知道我在說什麼, 如果用圖說明可能會比較容易)。 3. 另一個應該是英文問題。第二段有點饒舌,我想確定一下其中除了standard error 的 error,其與所提到的 error 指的是 CV error 吧。 謝謝大家的幫忙!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.225.181.56
文章代碼(AID): #17GNhiIR (Statistics)