[問題] 虛擬變項問題

看板Statistics作者 (檬檬果)時間11年前 (2015/01/03 21:37), 編輯推噓1(109)
留言10則, 3人參與, 最新討論串1/1
各位高手您好 想請教一下,一些統計書上說在跑分析時, 所需要的樣本數通常為變項數量*10 那在做虛擬變項時,會把變項分成變成K-1個, 像性別可能沒問題,因為2-1個,還是一個變項 但像是年齡,可能會分成二個或三個變項, 那這時所需的樣本數是否也要增加? 統計基礎不強請包含。。。 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.89.166 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1420292271.A.096.html

01/03 23:54, , 1F
你解釋變數太多 可能就對導致自由度不夠扣
01/03 23:54, 1F

01/04 20:20, , 2F
你增加的是變數不是觀測值
01/04 20:20, 2F

01/04 20:22, , 3F
切的越細只是橫的變量增加,與直向的觀測值無關
01/04 20:22, 3F

01/04 20:23, , 4F
還有切太多要考量過度擬合的問題
01/04 20:23, 4F

01/05 08:52, , 5F
類別解釋變數分類多, 當然要相應地增加樣本數.
01/05 08:52, 5F

01/05 08:53, , 6F
以迴歸模型 n = 變項數*10 的 rule of thumb 而言, 若解釋
01/05 08:53, 6F

01/05 08:55, , 7F
變項是類別的, 那麼參考準則的 "變項數" 是指虛擬變項個數.
01/05 08:55, 7F

01/05 08:56, , 8F
不過, 除了總樣本數之考慮外, 還有樣本數在分類變項各分類
01/05 08:56, 8F

01/05 08:56, , 9F
之分配型態要考慮. 如果某一解釋變項之某一分類樣本數太少,
01/05 08:56, 9F

01/05 08:57, , 10F
也會產生一些不好的結果.
01/05 08:57, 10F
文章代碼(AID): #1Kf_2l2M (Statistics)