[問題] Logistic regression 的變數設定(1)
glm(Y~X1+X2+X3+X4+X5 , family = binomial)
----------------------------------------------------
Y : 二元變項
X1 : 連續 (Age : 15.5 , 18.3 , 22.9)
X2 : 不連續 (看病次數/yr : 1 , 3 , 10 )
X3 : Rank (日吸菸量 : 1~5根 , 6~15 , 16~25)
X4 : Category (居住區域 : 市區 , 山區 , 郊區 )
X5 : Binomial (Sex : 0 , 1 )
----------------------------------------------------
據我所知
X1 & X2 , 直接用 numeric() 餵進glm() 就好
X4 & X5 , 需要先用 as.factor() 轉換為 dummy variable ###二元變項可不轉
我的問題是 , X3 , 是 Rank variable , 有程度輕到重
應該要套用 X1&X2 的處理方式?
還是套用 X4&X5 的處理方式?
因為 Rank variable 的性質
好像界於 不連續變數與 Category 變數之間
有點搞不清楚
--
統計是我栽
模型是我開
要想套此模
留下專利財
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:16)
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:23)
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:47)
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:47)
推
06/14 15:49, , 1F
06/14 15:49, 1F
→
06/14 15:49, , 2F
06/14 15:49, 2F
推
06/14 15:53, , 3F
06/14 15:53, 3F
我認為之所以用 Rank variable
就是因為每個 rank 之間的影響能力無法被確定
比方說不連續 data ,
可以精確定量 1 個單位 , 2個單位
而 Rank data 不行
然而
Rank data 卻又隱含 Rank3 > Rank2 > Rank1 的關係
這是 Category data 所沒有的
若是實際操作
我會選擇用 dummy variable 的方式去操作 X3
不過也覺得損失 Rank3 > Rank2 > Rank1 的邏輯關係有點可惜
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:18)
我後來想一想
即便是抽菸因子
少量 中量 大量
Rank = 1 2 3
也看過反而是中量最易導致COPD疾病
在此情形下 , rank 的 3>2>1 的邏輯也完蛋
再加上本身 Rank 並非精確定量
也就是說 無法定義每增加一個單位的 Rank , 能進行 Y = Beta*rank
因此還是套用 Category 的處理方式較正確
也就是 dummy variable
Y = Beta2*rank=2 + Beta3*rank=3
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:35)
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:37)
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:37)
※ 編輯: gsuper 來自: 140.113.239.247 (06/14 17:45)
→
06/17 16:35, , 4F
06/17 16:35, 4F
總之我是信了
(再更好的資料出來前,只能選取所見即得中的最佳解)
→
06/17 16:35, , 5F
06/17 16:35, 5F
X1 與 X2 也不一定
可能是直線 , 也可能是log線 , 也可能是山峰或山谷型
若 Y 看起來是一條線 (e.g. sin wave 或遵循某種規則)
我會選擇 Lowess regression
若 Y 看起來是會被截切 (e.g. 川型)
我想 X1和X2 也可以轉換成 category variable
※ 編輯: gsuper 來自: 140.113.239.247 (06/18 13:22)
※ 編輯: gsuper 來自: 140.113.239.247 (06/18 14:19)
※ 編輯: gsuper 來自: 140.113.239.247 (06/18 15:22)
推
06/19 10:55, , 6F
06/19 10:55, 6F