[問題] R-數值 & 類別變數混合迴歸

看板Statistics作者 (黑麻糬)時間11年前 (2014/11/05 19:13), 編輯推噓0(007)
留言7則, 2人參與, 最新討論串1/1
各位版大平安,小弟有些類別變數迴歸的問題 小弟有 40 筆對於家庭耗電量的資料,每筆資料含有 一個依變數:耗電量 三個自變數: 1. 當日氣溫 Temp (連續數值資料) 2. 該家庭的人數 NPeople (離散數值資料 1~8) 3. 該家庭的綜合指數指標 Home (坪數、樓層、收入等,類別變數資料,編碼 1~5) ================================ 法一 ============================= 我先使用 Dummy variable 以綜合指標=1 的為基準 做 Home=2~5 的 0,1 編碼,變數為 D1~D4 直覺上 Temp 與 Home 變數沒交互作用,所以我考慮 NPeople & Dummy 的交互作用 跑 Rcode 如下 model.1=lm(EC~Temp+NPeople*(D1+D2+D3+D4)) summary(model.1) Call: lm(formula = EC ~ Temp + NPeople * (D1 + D2 + D3 + D4)) Residuals: Min 1Q Median 3Q Max -169.87 -41.89 -14.33 39.70 157.56 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -381.67754 121.13553 -3.151 0.003761 ** Temp 0.27810 0.04011 6.933 1.28e-07 *** NPeople 50.92800 22.32545 2.281 0.030067 * D1 303.96626 134.06259 2.267 0.030999 * D2 493.61280 158.77994 3.109 0.004184 ** D3 833.86495 209.62244 3.978 0.000425 *** D4 665.27769 153.25152 4.341 0.000157 *** NPeople:D1 -31.43522 27.99453 -1.123 0.270688 NPeople:D2 -59.75671 35.05763 -1.705 0.098975 . NPeople:D3 -107.25406 42.48099 -2.525 0.017304 * NPeople:D4 -68.95722 32.23289 -2.139 0.040954 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 79.35 on 29 degrees of freedom Multiple R-squared: 0.8501, Adjusted R-squared: 0.7984 F-statistic: 16.44 on 10 and 29 DF, p-value: 2.119e-09 報表如上,NPeople:D1 交互不顯著,但這不能拿掉吧? 拿掉=拿掉整個變數? 看到這個報表突然不曉得要怎麼往下做,想請問版大們有何建議 ========================= 法二 ================================= 之後自己上 youtube 看了一個 ANCOVA 影片教學 Home=as.factor(Home) mod.IA=aov(EC~Temp+NPeople*Home,contrasts=list(Home=contr.sum)) Anova(mod.IA,type=3) Anova Table (Type III tests) Response: EC Sum Sq Df F value Pr(>F) (Intercept) 7654 1 1.2158 0.2792569 Temp 302615 1 48.0664 1.278e-07 *** NPeople 266 1 0.0423 0.8384794 Home 173958 4 6.9077 0.0004927 *** NPeople:Home 56055 4 2.2259 0.0907737 . Residuals 182577 29 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 報表如上,影片說是 Type III SSE, dummy 編碼與法一不同,是比較好嗎? 法二的報表可以說 NPeople & Npeople:Home 都不顯著,最後只留 Temp + Home 嗎? 因為這部份在課堂上真的聽的霧颯颯,不曉得哪個比較正確 以前還聽過主效應如果不顯著,一般不考慮交互作用,是正確的嗎? 還是我記錯了... 想請問各位版大,以上報表該如何挑選及解釋變數,謝謝各位。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.252.232.220 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1415186031.A.033.html

11/06 03:43, , 1F
方法一裡要不要刪變數,從迴歸式的解來看很難辨別。
11/06 03:43, 1F

11/06 03:43, , 2F
可能是還由ANOVA的角度才能決定。
11/06 03:43, 2F

11/06 03:48, , 3F
方法二如果要刪,一次刪一個並檢視之,不要一次二個。
11/06 03:48, 3F

11/06 03:49, , 4F
「主效應如果不顯著,一般不考慮交互作用」沒這回事。
11/06 03:49, 4F

11/06 03:50, , 5F
想想「長得像一個叉叉」的二因子交互作用圖。
11/06 03:50, 5F

11/06 03:57, , 6F
補充:方法二的交互作用並不是很弱。要拿掉可能要再考慮
11/06 03:57, 6F

11/06 09:28, , 7F
感謝A大提供的寶貴意見~
11/06 09:28, 7F
文章代碼(AID): #1KMWPl0p (Statistics)