[問題] ANOVA 有常態分佈的假設嗎?

看板Statistics作者 (huggie)時間13年前 (2011/04/15 12:30), 編輯推噓4(4059)
留言63則, 5人參與, 最新討論串1/3 (看更多)
我想知道我有 n > 100 的資料, (EDIT: 實際數目為四組, 數目分別為 509, 237, 168, 63) Normality test (Anderson–Darling) 得知分佈非常態 (很多是零) 我想分析的資料有兩個 independent variables, 如果是常態其實我就可以用 ANOVA 直接檢定。 但現在它是非常態我就有點疑惑。 我想問 ANOVA 有常態分佈的 assumption 嗎? 因為 t-test 有原始資料呈常態分佈的假設,我以為 ANOVA 為 t-test 對多個 sample 的 "擴充" 所以也有這個假設有,但是我的書 似乎沒有寫得很清楚。 Wikipedia 上面則說: "Normality – the distributions of the residuals are normal." 我一直以為 ANOVA 有原始資料(非 residuals) 須呈常態分佈的假設 所以才會須要 Kruskal-Wallis test 等無母數的 "one-way ANOVA" test。 所以我的問題是:是原本資料就要成常態,還是 residual 才要是常態? 還是這兩者之間有一定的關係? 原始資料非常態的時候會直接代表 residual 沒有常態嗎?還是要真的做過 regression才知道? Edit 補充:我上面指的 "原始資料" 是我的 samples,並非母體 另外我現在覺得因為我的n>100所以可以適用中央極限定律(對吧?) 但我還是想問 ANOVA residual normality assumption 的問題. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.126.38.177 ※ 編輯: huggie 來自: 120.126.38.177 (04/15 12:31) ※ 編輯: huggie 來自: 120.126.38.177 (04/15 12:31)

04/15 12:45, , 1F
但是根據中央極限定律其實我不用管是否常態?
04/15 12:45, 1F

04/15 12:53, , 2F
CLT不是這樣用的,搜集100萬筆卡方隨機變數,這100萬筆
04/15 12:53, 2F

04/15 12:54, , 3F
就會變成常態隨機變數?! 你的問題書上都有,翻翻書吧
04/15 12:54, 3F

04/15 13:09, , 4F
k大可以詳細說明一下嗎? 我的書我看不太出來..XD
04/15 13:09, 4F

04/15 13:10, , 5F
CLT是說母體非常態可是sample夠多,mean呈常態所以可檢定
04/15 13:10, 5F

04/15 13:10, , 6F
不知道為何不適用?
04/15 13:10, 6F

04/15 13:11, , 7F
關於ANOVA assumption我還是很疑惑
04/15 13:11, 7F
※ 編輯: huggie 來自: 120.126.38.177 (04/15 13:15)

04/15 14:17, , 8F
我記得 2-way ANOVA 的假設 , 需要在 r*k 的 table 中
04/15 14:17, 8F

04/15 14:17, , 9F
直的看每條都要常態 , 橫的看也都要常態 , 全部打散一起看
04/15 14:17, 9F

04/15 14:18, , 10F
仍然要常態 , 如果太不像常態分部 , 有時候 F會小於1
04/15 14:18, 10F

04/15 14:22, , 11F
SStotal(全)=SSblock(橫)+SStreat(直)+SSresidual(殘)
04/15 14:22, 11F

04/15 14:23, , 12F
照這邏輯來看,殘差也要是常態分部based on全橫直三項的運算
04/15 14:23, 12F

04/15 16:26, , 13F
你的意思是全橫直都常態分佈的話,殘差看來就要是常態了?
04/15 16:26, 13F

04/15 16:36, , 14F
恩,就是前三項符合常態,殘差自然就是常態
04/15 16:36, 14F

04/15 16:43, , 15F
因為 mean 不同, 因此所謂 "常態性條件" 指的是 error term
04/15 16:43, 15F

04/15 16:44, , 16F
為 i.i.d. 常態. 但 error term 是看不到的, 只能以殘差去
04/15 16:44, 16F

04/15 16:45, , 17F
近似. 所以一般在 regression, ANOVA 或其他模型, 都是 fit
04/15 16:45, 17F

04/15 16:45, , 18F
一個適當模型之後, 看殘差項是否具有該模型要求的誤差項應有
04/15 16:45, 18F

04/15 16:46, , 19F
的分布特性. 至於你的資料是否能用基於常態性條件的 ANOVA,
04/15 16:46, 19F

04/15 16:47, , 20F
我無法回答, 因為一則 "樣本數100" 是總樣本數或是分組樣本
04/15 16:47, 20F

04/15 16:49, , 21F
數我不清楚, 再者你說 "很多0", 猜測原各組資料分布可能有嚴
04/15 16:49, 21F

04/15 16:50, , 22F
重偏斜, 那麼 n>100 也不見得能支持引用中央極限定理來支持
04/15 16:50, 22F

04/15 16:51, , 23F
你進行普通的 ANOVA. 更糟糕的是, 或許各組資料的分散程度也
04/15 16:51, 23F

04/15 16:52, , 24F
有不小差貫, 那麼 ANOVA 所需要的假設之一, 變異數均質性,
04/15 16:52, 24F

04/15 16:53, , 25F
並不滿足. 但你的資料適合用甚麼方法分析, 一則限於我對資料
04/15 16:53, 25F

04/15 16:53, , 26F
不了解, 再則因我所學淺薄, 無法給予具體建議.
04/15 16:53, 26F
※ 編輯: huggie 來自: 120.126.38.177 (04/15 17:02) ※ 編輯: huggie 來自: 120.126.38.177 (04/15 17:06)

04/15 17:11, , 27F
我補充了n的資料了,var是否均質我是還沒檢查。假如均質,
04/15 17:11, 27F

04/15 17:13, , 28F
CLT只說sampling大時,mean的分佈呈常態,嚴重偏斜會有很大
04/15 17:13, 28F

04/15 17:14, , 29F
影響嗎?沒有很清楚。依理解思考來說,母體應是非常態,
04/15 17:14, 29F

04/15 17:15, , 30F
數字全為正數,越趨近於零的數字越多
04/15 17:15, 30F

04/15 17:15, , 31F
我是要講說 "我"沒有很清楚..我不太懂
04/15 17:15, 31F

04/15 17:16, , 32F
這趨近於零多的資料可能可以做個transform吧,可是我還有
04/15 17:16, 32F

04/15 17:16, , 33F
資料我就不是很確定分佈應該是如何了
04/15 17:16, 33F

04/15 17:17, , 34F
^ 其他 (一直漏打,讀起來有點辛苦,抱歉)
04/15 17:17, 34F

04/15 17:19, , 35F
假使變異數均質,假如我套用model之後殘差呈常態,這樣不論
04/15 17:19, 35F

04/15 17:20, , 36F
我的sample如何,我的ANOVA assumption都有,就OK對吧?
04/15 17:20, 36F

04/15 21:59, , 37F
不然你要不要找找看 robust ANOVA 的用法 ,[R]::robande
04/15 21:59, 37F

04/15 22:23, , 38F
CLT 講的是 n→∞ 樣本平均數經標準化後其極限分布是常態.
04/15 22:23, 38F

04/15 22:24, , 39F
用於實務, 是 "如果 n 夠大, 則樣本平均數的分布接近常態."
04/15 22:24, 39F

04/15 22:25, , 40F
但甚麼時候可以說 "n 夠大"? 抱歉! 沒有標準!
04/15 22:25, 40F

04/15 22:25, , 41F
千萬別誤信一些以訛傳訛的說法!
04/15 22:25, 41F

04/15 22:26, , 42F
如果不談群體分布的特性就任意定個界限說 n 多少以上就可以,
04/15 22:26, 42F

04/15 22:27, , 43F
那一定是錯的! 群體分布的偏態、峰度都會影響平均數分布接近
04/15 22:27, 43F

04/15 22:27, , 44F
常態的速度.
04/15 22:27, 44F

04/15 22:28, , 45F
你說數據都非負, 越接近 0 越多, 這不待做甚麼檢定就可判定
04/15 22:28, 45F

04/15 22:29, , 46F
群體分布不是常態了! 至於那樣的樣本數夠不夠引用 CLT, 我仍
04/15 22:29, 46F

04/15 22:30, , 47F
不能說甚麼....因為, 如果是接近指數分布, 可能那樣的樣本數
04/15 22:30, 47F

04/15 22:31, , 48F
可以了; 但同樣這種反J形分布, Pareto分布群體要適用CLT可能
04/15 22:31, 48F

04/15 22:32, , 49F
樣本數要比指數分布大些; 而對數常態分布可能要很大的 n 才
04/15 22:32, 49F

04/15 22:33, , 50F
足夠引用 CLT 來做推論. 有一些模擬結果請參考:
04/15 22:33, 50F

04/15 22:33, , 51F
telnet://bbs.ncku.edu.tw 之 Statistics 版精華區(按z進入)
04/15 22:33, 51F

04/15 22:34, , 52F
→7→11→8
04/15 22:34, 52F

04/15 22:35, , 53F
做變數變換後再做 ANOVA, 這應該可以改善分布的偏態, 加速
04/15 22:35, 53F

04/15 22:36, , 54F
(變數變換後)樣本平均數之分布接近常態分布的速度. 平方根
04/15 22:36, 54F

04/15 22:36, , 55F
變換、對數變換都是可考慮的. 但因 "有很多0" 會造成兩個問
04/15 22:36, 55F

04/15 22:37, , 56F
題:(1) 0 無法取對數. 因此, 所有資料應加一常數再取對數.
04/15 22:37, 56F

04/15 22:38, , 57F
(2) 一堆0不管如何轉仍是同一個值. 也就是說經變數轉換可能
04/15 22:38, 57F

04/15 22:39, , 58F
是改變了數值之間的間隔而已...如果你的數據都只是少數幾個
04/15 22:39, 58F

04/15 22:40, , 59F
可能值的話. 不過, 就引用 CLT 做推論而言, 這變換應該仍是
04/15 22:40, 59F

04/15 22:40, , 60F
有益的.
04/15 22:40, 60F

04/16 12:23, , 61F
Google bootstrap ANOVA if you are concerned about
04/16 12:23, 61F

04/16 12:27, , 62F
normality. In fact, I would be more concerned about
04/16 12:27, 62F

04/16 12:27, , 63F
over power than normality in your case.
04/16 12:27, 63F
文章代碼(AID): #1DfydXqc (Statistics)
文章代碼(AID): #1DfydXqc (Statistics)