[問題] 請問這題的數據應該視為常態嗎?

看板Statistics作者 (恬淡虛無真氣從之)時間13年前 (2012/07/20 22:42), 編輯推噓0(0039)
留言39則, 3人參與, 最新討論串1/1
如果是跟統計軟體有關請重發文章 如果跟論文有關也煩請您重發文章 文章類別是為了幫助大家搜尋資料與解答,造成不便之處請見諒 某研究欲瞭解飲用水加氟前後學童蛀牙率之改變情形, 選擇了16個飲用水加氟的社區作為研究區域,這些社區 飲用水加氟前後,每百名學童沒有蛀牙之百分比如下: 編號----加氟前%----加氟後%----D(後-前)% 1. 18.2 49.2 31.0 2. 21.9 30.0 8.1 3. 5.2 16.0 10.8 4. 20.4 47.8 27.4 5. 2.8 3.4 0.6 6. 21.0 16.8 -4.2 7. 11.3 10.7 -0.6 8. 6.1 5.7 -0.4 9. 25.0 23.0 -2.0 10. 13.0 17.0 4.0 11. 76.0 79.0 3.0 12. 59.0 66.0 7.0 13. 25.6 46.8 21.2 14. 50.4 84.9 34.5 15. 41.2 65.2 24.0 16. 21.0 52.0 31.0 --------------------------------------- 這個題目是今年高考生物統計學裡的題目 乍看之下我直接用paired t test來檢定加氟前後是否有顯著差異 考完後回想這題越想越奇怪 1.首先D值的分布一看之下不呈常態,照理說應該不能用t test吧?? 2.再來是題目描述的取樣方法,是一個社區取得一個比例數值 也就是一次取樣, n=16, 這樣對嗎?? 3.有同學討論說可是他每個社區都找了一些學童樣本,n肯定是很大 而且又重複16次, 根據中央極限定理, 在重複抽樣下, 樣本分布會趨近常態, 因此可以視這些數據為常態,這樣對嗎?? 4.平均值=12.21 樣本標準差=13.616 5.四分位數 Q1=0.1, Q2=7.55, Q3=25.7, Q4=34.5, 有唯一溫和極端值-4.2 因為我始終無法認為題目描述的抽樣方法叫做"重複抽樣", 實際上也不可能也沒有那麼多經費讓研究者這樣做, 同學一番論點又讓我感到很困惑,所以特來請教板上強者為我解惑,感謝:D -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 111.252.7.110 ※ 編輯: taidiy 來自: 111.252.7.110 (07/20 22:56)

07/20 23:21, , 1F
1. t-test=/=ND,符合大樣本才能依中央極限定理,趨近常態,
07/20 23:21, 1F

07/20 23:22, , 2F
以樣本變方估計母體變方,不需要ND假設.
07/20 23:22, 2F

07/20 23:23, , 3F
2. 是的,我認為這題應以paired-t解.
07/20 23:23, 3F

07/20 23:26, , 4F
3. 各社區內有無蛀牙是二項分布問題,我認為社區內分布情
07/20 23:26, 4F

07/20 23:28, , 5F
形與題旨討論加氟前後差異無關.
07/20 23:28, 5F

07/20 23:30, , 6F
樣本直接來自這十六個社區加氟前後差異.
07/20 23:30, 6F

07/21 10:42, , 7F
更正一下第一句, t-distribution
07/21 10:42, 7F

07/21 20:05, , 8F
1. "一看之下不呈常態" 是指你有觀察莖葉圖或常態分布圖得到
07/21 20:05, 8F

07/21 20:05, , 9F
的看法嗎?
07/21 20:05, 9F

07/21 20:06, , 10F
2. 是的, 這是以 "社區" 為抽樣單位的一個樣本. n=16.
07/21 20:06, 10F

07/21 20:07, , 11F
3. 貴同學的看法不正確. 再者, 因各社區大小不同, 認真說起
07/21 20:07, 11F

07/21 20:08, , 12F
來, 這些樣本還會有不等幅變異的問題.
07/21 20:08, 12F

07/21 20:09, , 13F
5. 四分位數怎會有4個? 4個分位數應把資料分成5部分, 那就不
07/21 20:09, 13F

07/21 20:09, , 14F
是四分位數了.
07/21 20:09, 14F

07/21 20:10, , 15F
總結: 如果16個社區是等機率隨機選出的, 忽略異幅變異的問題
07/21 20:10, 15F

07/21 20:12, , 16F
雖然兩次調查結果比例差可能不成常態分布, 但若沒有明顯偏態
07/21 20:12, 16F

07/21 20:13, , 17F
基於 t 檢定的 robustness, n=16 或許勉強仍可用 t 檢定.
07/21 20:13, 17F

07/21 20:14, , 18F
當然, 也可考慮 based on ranks 的非參數方法.
07/21 20:14, 18F

07/21 20:15, , 19F
一個最簡單, 條件最少的非參數化方法, 就是 sign-test.
07/21 20:15, 19F

07/21 20:17, , 20F
試算了一下, sign-test 的單尾 p 值是 0.038.
07/21 20:17, 20F

07/22 22:47, , 21F
喔喔 感謝g大和y大, 所以應該是假設樣本均值呈t分布,我之前
07/22 22:47, 21F

07/22 22:48, , 22F
誤以為樣本資料要呈常態才能進行t test, 這樣我有些懂了^^
07/22 22:48, 22F

07/22 22:52, , 23F
回應y大, 是從手畫box plot看出來的, 然後Q4其實是最大值XD
07/22 22:52, 23F

07/25 10:43, , 24F
"樣本均值呈t分布" 這說法不正確. 是 "原資料為常態群體之
07/25 10:43, 24F

07/25 10:44, , 25F
簡單隨機樣本時, t 統計量服從常態分布. 但 t 統計量算是一
07/25 10:44, 25F

07/25 10:45, , 26F
個頗穩健的統計量, 因此如果群體分布沒有偏離常態太多, t 統
07/25 10:45, 26F

07/25 10:45, , 27F
計量的分布, 只要不是樣本太小, 仍可用 t 分布當近似."
07/25 10:45, 27F

07/25 10:48, , 28F
以上關於 t 分布之適用性, 是參考 Moore 等人的一本初統教本
07/25 10:48, 28F

07/25 10:49, , 29F
的 rule of thumb, 可參考 telnet://bs2.twbbs.org 之
07/25 10:49, 29F

07/25 10:51, , 30F
Statistics 版精華區 --> 4 --> 10 --> 18, 或
07/25 10:51, 30F

07/25 10:52, , 31F
telnet://bbs.ncku.edu.tw 之 Statistics 版精華區(按z進入)
07/25 10:52, 31F

07/25 10:54, , 32F
--> 7 --> 9 --> 14. 又可參考同一精華區 ->7 ->11 ->8 ->1
07/25 10:54, 32F

07/25 23:05, , 33F
我的意思只是要說別把t-dist與ND混為一談,y大已經用中央
07/25 23:05, 33F

07/25 23:06, , 34F
極限定理的意義說明了:在符合常態分配的大樣本中,如以隨機
07/25 23:06, 34F

07/25 23:07, , 35F
抽樣方式抽出其中的樣本,這些樣本的排列會符合常態.
07/25 23:07, 35F

07/25 23:10, , 36F
而在較小樣本中,t-test即趨近常態的分布特性檢定與母體
07/25 23:10, 36F

07/25 23:11, , 37F
均值的差異程度.
07/25 23:11, 37F

07/25 23:13, , 38F
常態分佈的假設應建立在"所有社區(包含其他社區之母體),
07/25 23:13, 38F

07/25 23:14, , 39F
加氟前後的差異呈常態分配",而非呈"均值t-dist的假設".
07/25 23:14, 39F
文章代碼(AID): #1G2Mvcap (Statistics)