[問題] 卡方檢定在特徵篩選上(數值response)

看板Statistics作者 (Tom)時間2年前 (2022/03/22 11:04), 編輯推噓0(0015)
留言15則, 3人參與, 2年前最新討論串1/1
請問各位大大, 最近在研究使用卡方檢定來進來特徵篩選,主要是針對「類別特徵」。 大部份都是在response也是類別時。 但我不確定,如果使用在數值response上頭,也是可行嗎? 下面這一篇,建議使用的方式,是將數值型特徵discritize. 這樣就可以用卡方了。 https://stats.stackexchange.com/a/479206/250305 不知道是不是如果遇到數值反應變數,也是只能將其discritize以使用卡方檢定呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.150.205 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1647918254.A.5B3.html

03/23 16:49, 2年前 , 1F
就我所知,一定是離散的反應變數。預先離散化也有方法。
03/23 16:49, 1F

03/23 16:49, 2年前 , 2F
或是考慮其它特徵選擇的方法。
03/23 16:49, 2F

03/23 21:53, 2年前 , 3F
不是 你連續就有更多方法可以比較兩組的分佈是否不
03/23 21:53, 3F

03/23 21:53, 2年前 , 4F
同 為何要繞一大圈先離散化再做卡方
03/23 21:53, 4F

03/23 21:54, 2年前 , 5F
不是不能做 而是沒有意義
03/23 21:54, 5F

03/23 21:58, 2年前 , 6F
連續甚至有方法可以同時考慮更多東西 例如:特徵之
03/23 21:58, 6F

03/23 21:58, 2年前 , 7F
間的重疊性 (correlation-based feature selection
03/23 21:58, 7F

03/23 21:58, 2年前 , 8F
)
03/23 21:58, 8F

03/24 18:52, 2年前 , 9F
你的卡方檢定是準備檢定什麼東西呢? 兩變數關聯, 或檢定資
03/24 18:52, 9F

03/24 18:54, 2年前 , 10F
料是否適合某一分布? 或幾個樣本對應的群體分布是否相同?
03/24 18:54, 10F

03/24 18:55, 2年前 , 11F
基本上數值性資料會先考慮數值性資料的方法; 在數值性的方
03/24 18:55, 11F

03/24 18:57, 2年前 , 12F
不合適例如兩變數不是直線型關聯而且關聯型態不知時, 才會
03/24 18:57, 12F

03/24 19:00, 2年前 , 13F
考慮離散化進行卡方檢定. 此時當然要分組, 各組次數要足夠,
03/24 19:00, 13F

03/24 19:01, 2年前 , 14F
因為卡方檢定是大樣本近似方法, 也就是套用中央極限定理而
03/24 19:01, 14F

03/24 19:02, 2年前 , 15F
出的方法.
03/24 19:02, 15F
文章代碼(AID): #1YEJokMp (Statistics)