[問題] Logistic regression 的變數設定(1)

看板Statistics作者 (Logit(odds))時間12年前 (2012/06/14 15:16), 編輯推噓3(303)
留言6則, 3人參與, 最新討論串1/1
glm(Y~X1+X2+X3+X4+X5 , family = binomial) ---------------------------------------------------- Y : 二元變項 X1 : 連續 (Age : 15.5 , 18.3 , 22.9) X2 : 不連續 (看病次數/yr : 1 , 3 , 10 ) X3 : Rank (日吸菸量 : 1~5根 , 6~15 , 16~25) X4 : Category (居住區域 : 市區 , 山區 , 郊區 ) X5 : Binomial (Sex : 0 , 1 ) ---------------------------------------------------- 據我所知 X1 & X2 , 直接用 numeric() 餵進glm() 就好 X4 & X5 , 需要先用 as.factor() 轉換為 dummy variable ###二元變項可不轉 我的問題是 , X3 , 是 Rank variable , 有程度輕到重 應該要套用 X1&X2 的處理方式? 還是套用 X4&X5 的處理方式? 因為 Rank variable 的性質 好像界於 不連續變數與 Category 變數之間 有點搞不清楚 -- 統計是我栽 模型是我開 要想套此模 留下專利財 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.239.247 ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:16) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:23) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:47) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:47)

06/14 15:49, , 1F
你認為X3 Rank 1 跟 Rank 2的差異 是否等於 Rnak 2and3
06/14 15:49, 1F

06/14 15:49, , 2F
沒有說 一定要怎麼fit model 重點是看你要怎麼解釋
06/14 15:49, 2F

06/14 15:53, , 3F
甚至 你可以fit 兩個model 看看結果的差異
06/14 15:53, 3F
我認為之所以用 Rank variable 就是因為每個 rank 之間的影響能力無法被確定 比方說不連續 data , 可以精確定量 1 個單位 , 2個單位 而 Rank data 不行 然而 Rank data 卻又隱含 Rank3 > Rank2 > Rank1 的關係 這是 Category data 所沒有的 若是實際操作 我會選擇用 dummy variable 的方式去操作 X3 不過也覺得損失 Rank3 > Rank2 > Rank1 的邏輯關係有點可惜 ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:18) 我後來想一想 即便是抽菸因子 少量 中量 大量 Rank = 1 2 3 也看過反而是中量最易導致COPD疾病 在此情形下 , rank 的 3>2>1 的邏輯也完蛋 再加上本身 Rank 並非精確定量 也就是說 無法定義每增加一個單位的 Rank , 能進行 Y = Beta*rank 因此還是套用 Category 的處理方式較正確 也就是 dummy variable Y = Beta2*rank=2 + Beta3*rank=3 ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:35) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:37) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:37) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 17:45)

06/17 16:35, , 4F
"反而是中量最易導致COPD疾病" 這在學理上說得通嗎?
06/17 16:35, 4F
總之我是信了 (再更好的資料出來前,只能選取所見即得中的最佳解)

06/17 16:35, , 5F
又: X1, X2 對 log-odds 的效應一定是直線的嗎?
06/17 16:35, 5F
X1 與 X2 也不一定 可能是直線 , 也可能是log線 , 也可能是山峰或山谷型 若 Y 看起來是一條線 (e.g. sin wave 或遵循某種規則) 我會選擇 Lowess regression 若 Y 看起來是會被截切 (e.g. 川型) 我想 X1和X2 也可以轉換成 category variable ※ 編輯: gsuper 來自: 140.113.239.247 (06/18 13:22) ※ 編輯: gsuper 來自: 140.113.239.247 (06/18 14:19) ※ 編輯: gsuper 來自: 140.113.239.247 (06/18 15:22)

06/19 10:55, , 6F
as.ordered 轉成 ordinal variable
06/19 10:55, 6F
文章代碼(AID): #1FsO_0H0 (Statistics)