[問題] 變項轉換IV值

看板Statistics作者 (across)時間11年前 (2014/09/04 10:51), 11年前編輯推噓1(1012)
留言13則, 3人參與, 最新討論串1/1
我用了一個可算informaiton value的package 某變項IV顯著 但把此變項轉成catgorical的7個變項 完全不顯著 data set中有一個變項是income 是用數字表示順序性的範圍 ex: 1:20K-25K 2:26K-35K 3:....... 7:200K以上 變項是 income_level IV值顯著 如果把變項轉換成 income_1 ....income_7 7個變項 沒有一個變項IV顯著 請問為甚麼會有這種現像呢? 究竟income可採納嗎? 我目前是姑且相信它可採納 但是我使用轉換後的7個變項進行預測 這樣的作法會有問題嗎? (apply 到一個logistic的model) 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.210.58.35 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1409799069.A.4FC.html

09/04 17:19, , 1F
也是淺見:把資料做了類別轉換 喪失了部分資訊 所以
09/04 17:19, 1F

09/04 17:20, , 2F
檢定結果變成不顯著
09/04 17:20, 2F

09/05 16:54, , 3F
樓上說的不對. 其原始資料本就是分組碼.
09/05 16:54, 3F

09/05 16:56, , 4F
先不管顯著性, 把用類別變項配適得到的 effect 與各類別的
09/05 16:56, 4F

09/05 16:56, , 5F
關係圖示, 看是否與所代表的值大致是直線關係, 如是的話,
09/05 16:56, 5F

09/05 16:59, , 6F
將各類別轉成代表 income 數值的指標, 然後以此指標為模型
09/05 16:59, 6F

09/05 16:59, , 7F
之解釋變數.
09/05 16:59, 7F

09/05 17:01, , 8F
會發生所問現象, 可能基本上 income 的效應是簡單趨勢, 而
09/05 17:01, 8F

09/05 17:02, , 9F
用類別變數, 7類佔用了6個自由度. 想像 income 的總效應被
09/05 17:02, 9F

09/05 17:03, , 10F
6個自由度分享, 每個自由度平均的 effect 當然比較不容易顯
09/05 17:03, 10F

09/05 17:04, , 11F
著. 而如果趨勢是直線的, 大部分效應歸屬於這個直線趨勢,
09/05 17:04, 11F

09/05 17:04, , 12F
是比較容易達到統計顯著性的.
09/05 17:04, 12F

09/05 23:29, , 13F
如上所述, 可減少組別試試看
09/05 23:29, 13F
謝謝大家分享指教 ※ 編輯: cawaiilulu (24.210.58.35), 09/08/2014 03:08:44
文章代碼(AID): #1K1zETJy (Statistics)