[問題] Variable selection

看板R_Language作者 (芸芸)時間7年前 (2016/08/26 18:08), 編輯推噓0(008)
留言8則, 3人參與, 最新討論串1/1
小妹現在正在做data mining相關的project 但是遇到一個問題 我的data裡面有categorical 和numeric variable 如果是在迴歸裡 我知道要把分類變量轉換成factor 然後迴歸會幫我跑出dummy variables來解釋結果 但是如果是用lasso在variable selection這個步驟的時候 分類變量要怎麼去解讀呢? (因為可能變量選擇完後,部分dummy variable有係數部分沒有) 另外如果是要分析這樣的數據集, 是不是只有特定的variable selection方法才能做? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 31.205.91.208 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472206089.A.3D1.html

08/26 18:46, , 1F
以4類3欄設成dummy的變數為例 應該是視為一個變數來看
08/26 18:46, 1F

08/26 18:48, , 2F
所以只有三欄全拿掉或三欄全加入兩種 就算有一欄的係數是0
08/26 18:48, 2F

08/26 18:57, , 3F
那要怎麼決定全拿掉還是全留下呢?
08/26 18:57, 3F

08/26 18:59, , 4F
如果全留下的話,建立模型的時候要用原始變量
08/26 18:59, 4F

08/26 18:59, , 5F
還是dummy variable來做預測?
08/26 18:59, 5F

08/26 20:03, , 6F
用group lasso
08/26 20:03, 6F

08/26 22:12, , 7F
能不能把變量當成continuous做變量選擇後
08/26 22:12, 7F

08/26 22:13, , 8F
建立模型的時候再把分類變量設成factor
08/26 22:13, 8F
文章代碼(AID): #1Nm1K9FH (R_Language)