[問題] 多元迴歸轉換虛擬變項

看板Statistics作者 (client center)時間12年前 (2014/01/11 01:20), 編輯推噓2(2028)
留言30則, 4人參與, 最新討論串1/1
各位統計前輩好: 小弟目前正在跑多元迴歸,但現在有幾個問題想請前輩們解惑: 一、間斷(名義)變項轉換為虛擬變項: 以年齡為例:30歲以下,31-40歲,41-50歲,51歲以上 目前看到的轉法有兩種: (1)在Dummy variables,將水準數減一,也就是4個轉成3個 預設參照組為51歲以上,30歲以下在dummy成不同變數過程是 1-->1 2-->0 3-->0 4-->0 ,輸出名稱是"年齡1" 第41-50歲那組就是 1-->0 2-->0 3-->1 4-->0,輸出名稱是"年齡3" 出來的資料名稱也會只有三組(因為全部都0的那組就是51歲這組) (2)將四組各自分別dummy,水準數就是原本的四組 也就是30歲以下在dummy成不同變數過程是 1-->1 2-->0 3-->0 4-->0 ,輸出名稱是"年齡1" 依此類推,51歲以上那組就是 1-->0 2-->0 3-->0 4-->1 ,輸出名稱是"年齡4" 我看吳明隆和陳正昌的書都是用(1),但我不知道我這樣解讀是對還錯? 所以想請大家解惑,到底哪一種才是對的? 二、如果跑迴歸,是要將所有被背景變項都丟進去嗎?小弟的背景變項有8個, 每一項再各自轉成虛擬變項,也有20個以上 不是不能跑,只是小弟在想有什麼可以事先篩選的方式 以小弟研究為例,所有背景變項中,什麼性別、學歷、年資 在F檢定時都沒有顯著, 就只有年齡一項有達顯著, 這樣可以再丟回歸的變項時,可以假設性別、學歷、年資 這些沒有預測力而先剔除丟入嗎? (意即我只要丟入年齡的虛擬變項就好) 小弟這樣的推論正確嗎? (當然我知道大絕招是全部丟進去, 我只是想知道一些可能篩選的依準) 另外,還有一個更窘的情況,假設真的某些虛擬變項有預測效力, 如年資的其中一個虛擬變項好了,可是解釋力實在很低, 大約只有1%-3%,其他設定的自變項解釋力遠高於年資, 假設是領導魅力的其中一項(關懷領導),佔了15%, 那這樣,年資的解釋還有存在的意義嗎? 以上是小弟目前深切的疑惑,望請各位先進指導~~謝謝大家 ^^~ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 112.105.89.196

01/11 05:39, , 1F
第一種方法很常見,但要小心它是非正交對比。
01/11 05:39, 1F

01/11 05:41, , 2F
第二種方法的alpha會澎漲,於是p-value就不宜參考了。
01/11 05:41, 2F

01/11 05:42, , 3F
我從來沒有看過用第二種方法的。不知道你哪裡看到的?
01/11 05:42, 3F

01/11 05:42, , 4F
第一種方法你可以查 simple contrast 得到更多資料。
01/11 05:42, 4F

01/11 05:43, , 5F
以上回答你第一個問題。
01/11 05:43, 5F

01/11 05:44, , 6F
第二個問題比較複雜,但至少和dummy variable無關。
01/11 05:44, 6F

01/11 05:45, , 7F
要不要採用某個因子是全有全無的,所以先不用想dummy。
01/11 05:45, 7F

01/11 05:46, , 8F
先檢驗某因子的邊際效果,而不要直接就看到dummy裡去。
01/11 05:46, 8F

01/11 05:50, , 9F
另外,都不考慮交互作用嗎?你可能要想一想。
01/11 05:50, 9F

01/11 06:23, , 10F
Dummy variables,將水準數減一的原因是什么呢?
01/11 06:23, 10F

01/11 06:23, , 11F
是因為reference category的effect是表現在intercept那里
01/11 06:23, 11F

01/11 06:25, , 12F
所以需要減1。如果你的model沒有intercept這一項,那么
01/11 06:25, 12F

01/11 06:25, , 13F
你就要包括所有的水準數,當然coefficient的解釋就不同了
01/11 06:25, 13F

01/11 06:27, , 14F
對第二個問題,放背景變量的目的是進行一定的control,
01/11 06:27, 14F

01/11 06:29, , 15F
如果背景變項可能沒有effect,那么你可以認為無須control
01/11 06:29, 15F

01/11 06:31, , 16F
所以放不放要取決于你的研究hypothesis是如何表述的
01/11 06:31, 16F

01/11 07:18, , 17F
BugEater說的沒錯。我倒沒想過你可能沒有截距項。
01/11 07:18, 17F

01/11 07:24, , 18F
但如果超過一個因子在模型裡,那也只有一個因子能這樣做
01/11 07:24, 18F

01/11 07:26, , 19F
而且沒有截距項在解釋上往往有困難,且檢驗的H0也不同。
01/11 07:26, 19F

01/11 08:06, , 20F
是,當多于一個因子時候會變復雜,用dummy就好。
01/11 08:06, 20F

01/11 14:51, , 21F
感謝各位大大 雖然小弟功力尚淺 但是獲益良多 有了指點
01/11 14:51, 21F

01/11 14:52, , 22F
大概有了些頭緒 像TWO-WAY ANOVA等 真的很謝謝大家解惑
01/11 14:52, 22F

01/11 21:00, , 23F
第一種方法就是4組只取3個 dummy, 第2種方法是有幾組就取幾
01/11 21:00, 23F

01/11 21:01, , 24F
個 dummy. 第2法的4個 dummy 加起來是常數 1, 也就是說會和
01/11 21:01, 24F

01/11 21:02, , 25F
常數項重疊, 或術語說是 "完全線性重合". 因此, 類別變數取
01/11 21:02, 25F

01/11 21:02, , 26F
dummy 時是少一個, 也就是第1法.
01/11 21:02, 26F

01/11 21:03, , 27F
第2個問題基本上是模型選擇問題. 與簡單數值變數不同的是:
01/11 21:03, 27F

01/11 21:04, , 28F
一個類別解釋變數對應多個 dummy, 因此在利用軟體執行時需要
01/11 21:04, 28F

01/11 21:05, , 29F
該軟體能直接處理類別解釋變數. 像這樣的軟體通常也會自動建
01/11 21:05, 29F

01/11 21:06, , 30F
立虛擬變數.
01/11 21:06, 30F
文章代碼(AID): #1Iq2lS8D (Statistics)