[問題] Logistic regression 的變數設定(1)

看板Statistics作者gsuper (Logit(odds))時間13年前 (2012/06/14 15:16)推噓3(3推 0噓 3→)

留言6則, 3人參與討論串1/1

glm(Y~X1+X2+X3+X4+X5 , family = binomial) ---------------------------------------------------- Y : 二元變項 X1 : 連續 (Age : 15.5 , 18.3 , 22.9) X2 : 不連續 (看病次數/yr : 1 , 3 , 10 ) X3 : Rank (日吸菸量 : 1~5根 , 6~15 , 16~25) X4 : Category (居住區域 : 市區 , 山區 , 郊區 ) X5 : Binomial (Sex : 0 , 1 ) ---------------------------------------------------- 據我所知 X1 & X2 , 直接用 numeric() 餵進glm() 就好 X4 & X5 , 需要先用 as.factor() 轉換為 dummy variable ###二元變項可不轉我的問題是 , X3 , 是 Rank variable , 有程度輕到重應該要套用 X1&X2 的處理方式? 還是套用 X4&X5 的處理方式? 因為 Rank variable 的性質好像界於不連續變數與 Category 變數之間有點搞不清楚 -- 統計是我栽模型是我開要想套此模留下專利財 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.239.247 ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:16) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:23) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:47) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 15:47)

推

allen1985

06/14 15:49, , 1^F

06/14 15:49, 1^F

→

allen1985

06/14 15:49, , 2^F

06/14 15:49, 2^F

推

allen1985

06/14 15:53, , 3^F

06/14 15:53, 3^F

我認為之所以用 Rank variable 就是因為每個 rank 之間的影響能力無法被確定比方說不連續 data , 可以精確定量 1 個單位 , 2個單位而 Rank data 不行然而 Rank data 卻又隱含 Rank3 > Rank2 > Rank1 的關係這是 Category data 所沒有的若是實際操作我會選擇用 dummy variable 的方式去操作 X3 不過也覺得損失 Rank3 > Rank2 > Rank1 的邏輯關係有點可惜 ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:18) 我後來想一想即便是抽菸因子少量中量大量 Rank = 1 2 3 也看過反而是中量最易導致COPD疾病在此情形下 , rank 的 3>2>1 的邏輯也完蛋再加上本身 Rank 並非精確定量也就是說無法定義每增加一個單位的 Rank , 能進行 Y = Beta*rank 因此還是套用 Category 的處理方式較正確也就是 dummy variable Y = Beta2*rank=2 + Beta3*rank=3 ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:35) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:37) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 16:37) ※ 編輯: gsuper 來自: 140.113.239.247 (06/14 17:45)

→

yhliu

06/17 16:35, , 4^F

06/17 16:35, 4^F

總之我是信了 (再更好的資料出來前,只能選取所見即得中的最佳解)

→

yhliu

06/17 16:35, , 5^F

06/17 16:35, 5^F

X1 與 X2 也不一定可能是直線 , 也可能是log線 , 也可能是山峰或山谷型若 Y 看起來是一條線 (e.g. sin wave 或遵循某種規則) 我會選擇 Lowess regression 若 Y 看起來是會被截切 (e.g. 川型) 我想 X1和X2 也可以轉換成 category variable ※ 編輯: gsuper 來自: 140.113.239.247 (06/18 13:22) ※ 編輯: gsuper 來自: 140.113.239.247 (06/18 14:19) ※ 編輯: gsuper 來自: 140.113.239.247 (06/18 15:22)

推

yahung

06/19 10:55, , 6^F

06/19 10:55, 6^F

‣ 返回看板[ Statistics ] 統計

‣ 更多 gsuper 的文章

文章代碼(AID): #1FsO_0H0 (Statistics)