[問題] 卡方獨立性檢定 細格有0

看板Statistics作者 ( ̄▽ ̄)時間14年前 (2011/08/30 15:31), 編輯推噓3(3042)
留言45則, 6人參與, 最新討論串1/1
拜託不要看到標題就先推Yate's Correction for Continuity或 Fisher's exact probability test 說來慚愧 接觸統計將近8年… 最近才聽說卡方檢定中細格不能有零這件事Orz 上網google 「卡方 0」也只有看到一筆資料有提到 而且只剩庫存頁面… 資料有幾個變項 有很多的變數 雖然樣本有超過2000 但是因為資料的特性 往往有一個變項很大 但是其他細格都是0 例如 甲 乙 丙 丁 戊 己 庚 A 280 1 10 0 0 0 2 B 12 5 0 380 5 3 1 C 0 181 3 1 0 2 5 D 1 3 0 21 89 40 20 E 9 20 18 50 150 0 0 類似這樣的狀況 如果併項到沒有0 1.會讓特徵消失 2.變項太少失去解釋意義 3.Cramers’V變小 請問有什麼方法解決嗎? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 163.29.135.126

08/31 02:00, , 1F
我也想問這問題 我的資料是上千筆 3*2 table , 一旦部分資
08/31 02:00, 1F

08/31 02:01, , 2F
料併項 整體的算法就不統一..很苦惱
08/31 02:01, 2F

08/31 09:44, , 3F
那為什麼不用Fisher's exact test?
08/31 09:44, 3F

08/31 09:46, , 4F
你知道為什麼要避免small cells嗎?
08/31 09:46, 4F

08/31 12:30, , 5F
Fisher's是"期望值"小於5 因為會讓檢定值變高
08/31 12:30, 5F

08/31 14:20, , 6F
請問有甚麼ref.提到細格"觀察值"不能為0的限制?
08/31 14:20, 6F

08/31 14:21, , 7F
大部分書提到的只有對"期望值"的限制不是嗎
08/31 14:21, 7F

08/31 19:13, , 8F
Kinght大你記錯了,那不是Fisher exact的限制
08/31 19:13, 8F

08/31 19:14, , 9F
主要原因也不是檢定值(mistaken for power?) 的問題
08/31 19:14, 9F

08/31 19:22, , 10F
引一段 R. A. Fisher在書裡講的話
08/31 19:22, 10F

08/31 19:23, , 11F
"The treatment of frequencies by means of chi-square is
08/31 19:23, 11F

08/31 19:23, , 12F
an approximation, which is useful for the comparative
08/31 19:23, 12F

08/31 19:23, , 13F
simplicity of the calculations. The exact treatment is
08/31 19:23, 13F

08/31 19:24, , 14F
somewhat more laborious, though necessary in cases of
08/31 19:24, 14F

08/31 19:24, , 15F
doubt.” -- Statistical Methods for Research Workers
08/31 19:24, 15F

08/31 19:26, , 16F
他這裡指的statement of doubt就是"期望值"小於五
08/31 19:26, 16F

08/31 19:27, , 17F
這種情況下chi-square test statistic"很可能"不是卡方分佈
08/31 19:27, 17F

08/31 19:29, , 18F
(修正,"很可能"長得不像卡方分佈, chi-sq test 只是
08/31 19:29, 18F

08/31 19:29, , 19F
approximation test)
08/31 19:29, 19F

08/31 19:42, , 20F
所以,不好意思,還是請你用Fisher exact test吧
08/31 19:42, 20F

08/31 21:20, , 21F
5×7 table, 要做 exact test? 不知多少時間能算出來?
08/31 21:20, 21F

08/31 21:20, , 22F
卡方檢定是近似檢定方法, 是基於多變量中央極限定理而來的.
08/31 21:20, 22F

08/31 21:21, , 23F
因此, 有 "cell 期望次數至少為 5" 的要求. 但有兩個方向的
08/31 21:21, 23F

08/31 21:22, , 24F
數值研究結論: 一是說對於大型的表, 只要期望值小於5的 cell
08/31 21:22, 24F

08/31 21:23, , 25F
數比例不太高, 而所有 cell 期望值都在 1 以上, 馬馬虎虎啦!
08/31 21:23, 25F

08/31 21:24, , 26F
另一結論說: 即使各細格期望值都在5以上, 但若各細格期望值
08/31 21:24, 26F

08/31 21:25, , 27F
相差太懸殊, 卡方近似還是有疑問的.
08/31 21:25, 27F

08/31 21:26, , 28F
至於 cell observations 是 0 的問題, 很久很久以前看過一篇
08/31 21:26, 28F

08/31 21:27, , 29F
文章, 大意上是說 cell observation 為 0, 則 "殘差" 只能是
08/31 21:27, 29F

08/31 21:28, , 30F
負的, 不能是正的. 好像因此作者建議調整自由度吧?....不過,
08/31 21:28, 30F

08/31 21:29, , 31F
事隔太久記憶不一定真實, 也就是作者是否以調整自由度的方法
08/31 21:29, 31F

08/31 21:30, , 32F
對付, 我無法肯定. 原文出處也沒有印象了.
08/31 21:30, 32F

08/31 21:48, , 33F
y大第一點指的是這篇 Koehler and Larntz (1980). An
08/31 21:48, 33F

08/31 21:49, , 34F
An empirical investigation of goodness-of-fit statistics
08/31 21:49, 34F

08/31 21:49, , 35F
for sparse multinomials. JASA, 75, 336-344.
08/31 21:49, 35F

08/31 21:50, , 36F
至於5X7的fisher exact 對現在的電腦來說算是小case啦
08/31 21:50, 36F

08/31 21:53, , 37F
如果是更大的table,R的function裡面還有用simulation來
08/31 21:53, 37F

08/31 21:53, , 38F
得到p-value這個選項(真的想省時間的話)
08/31 21:53, 38F

09/01 02:54, , 39F
推一個
09/01 02:54, 39F

09/01 08:48, , 40F
所以bmka大認為"即使細格有0 只要期望值<5的格數少於20%
09/01 08:48, 40F

09/01 08:49, , 41F
仍不用做Fisher exact test"?
09/01 08:49, 41F

09/01 11:11, , 42F
我的中文有那麼差嗎....請多愛用Fisher's exact test.
09/01 11:11, 42F

09/01 15:41, , 43F
所以你只是來推廣Fisher exact test?
09/01 15:41, 43F

09/01 19:38, , 44F
b 大是說放心使用 Fisher's exact test
09/01 19:38, 44F

09/01 19:57, , 45F
謝謝A大翻譯 :)
09/01 19:57, 45F
文章代碼(AID): #1EN9701x (Statistics)