[問題] Cross-validation的問題
這幾天看模型選擇遇到的問題
在衡量模型複雜度與預測誤差之下要找一個 turning point,
來做為我們模型最後選擇的依據。
書上以cross-validation方式來找這個turning point,
他計算出每個turning point下的 CV error 以及其對應的 standard error。
圖形以CV error為縱軸,truning parameter為橫軸(依不同模型,
可能為Subset size, Shrinkage Factors, Degrees of Freedom)
模型越往右邊越複雜。CV curve 越往右越低,但不一定是單調。
問題是我沒有很懂書上寫的最適turning point是怎麼找的。
我引用書上不同地方寫的兩段話,這兩段講的是同一個意思。
We have used the 'one-standard-error' rule -- we pick
the most parsimonious model within one standard error
of the minimum.
Often, a 'one-standard-error' rule is used with cross-validation,
in which we choose the most parsimonious model whose error is
no more than one standard error above the error of the best model.
我有幾個問題
1. 看起來這種turning point的找法是不是屬於一種經驗法則阿,不像AIC,BIC
有一個明確的值來提供我們做判斷。
2. 我對第一段的理解是:對所有turning point計算出CV error。 在所計算出來最小的
那個CV error 加一個標準差,以這點做一與橫軸的平行線,則其與CV curve相交
的點所對應的turning point,就是我們要找的解。(希望大家可以知道我在說什麼,
如果用圖說明可能會比較容易)。
3. 另一個應該是英文問題。第二段有點饒舌,我想確定一下其中除了standard error 的
error,其與所提到的 error 指的是 CV error 吧。
謝謝大家的幫忙!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.225.181.56