[問題] 大樣本非常態

看板Statistics作者 (好吃布朗)時間7年前 (2019/03/01 09:42), 編輯推噓3(3036)
留言39則, 6人參與, 6年前最新討論串2/2 (看更多)
大家好,最近在跑作業的時候遇到一個問題,目前有一組資料大約五千多筆,預計先跑常態性檢定,若符合常態分配的話會使用t檢定,若非則用無母數檢定。 我的問題是,目前用SPSS跑出來發現這些資料拒絕常態分配的假說,我了解CLT的大樣本沒有一定的標準,需要視收斂速度決定,但五千多筆還沒有收斂這是有可能的嗎? 這樣的情況我要用無母數檢定還是t檢定? 統計觀念沒有很好,還請各位多指教。 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.13.182 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1551404570.A.FB4.html

03/01 12:15, 7年前 , 1F
CLT 不是只有樣本大的條件, 還有moment的一些條件
03/01 12:15, 1F

03/01 12:15, 7年前 , 2F
雖然不好 verify, 要就事做無母數 不然就透過轉換
03/01 12:15, 2F

03/01 12:15, 7年前 , 3F
讓他像 normal 一點
03/01 12:15, 3F

03/01 20:02, 7年前 , 4F
CLT是對平均值的分配 而非觀察值....
03/01 20:02, 4F

03/02 01:06, 7年前 , 5F
觀察值不常態很正常啊。成績、身高、體重這些沒有一個會是
03/02 01:06, 5F

03/02 01:07, 7年前 , 6F
真正的常態,因為這些常見的數據都沒有負的。
03/02 01:07, 6F

03/02 21:23, 7年前 , 7F
沒有負的就不是常態也不太對....
03/02 21:23, 7F

03/02 21:23, 7年前 , 8F
身高平均175 標準差5的話 <0的機率....
03/02 21:23, 8F

03/02 21:24, 7年前 , 9F
觀察值不是常態 有兩個方向可以解釋
03/02 21:24, 9F

03/02 21:24, 7年前 , 10F
第一個他可能是mixture常態 要找到關鍵變因切割
03/02 21:24, 10F

03/02 21:25, 7年前 , 11F
像是男女生的身高分布不同,放在一起不可能是常態
03/02 21:25, 11F

03/02 21:26, 7年前 , 12F
另一個就是它本身就不是出自常態分配
03/02 21:26, 12F

03/02 21:27, 7年前 , 13F
另外,樓主的常態性檢定 有沒有想過
03/02 21:27, 13F

03/02 21:28, 7年前 , 14F
樣本大的時候power跟樣本大小的關係
03/02 21:28, 14F

03/02 21:29, 7年前 , 15F
樣本大的時候,檢定力高,只要有一點點不同就會
03/02 21:29, 15F

03/02 21:29, 7年前 , 16F
拒絕虛無假設
03/02 21:29, 16F

03/02 21:29, 7年前 , 17F
建議原PO畫畫看QQ-plot 看看圖形來判斷跟常態差異
03/02 21:29, 17F

03/02 21:29, 7年前 , 18F
有多大
03/02 21:29, 18F

03/02 21:31, 7年前 , 19F
看原始值跟對角線差異在哪
03/02 21:31, 19F

03/02 21:31, 7年前 , 20F
原始值尾巴小於對角線 就是尾巴部分比較短
03/02 21:31, 20F

03/02 21:32, 7年前 , 21F
相反就是尾巴分布長
03/02 21:32, 21F

03/02 21:32, 7年前 , 22F
兩種會有不同樣的做法做轉換
03/02 21:32, 22F

03/02 21:32, 7年前 , 23F
第三種就是主體偏離對角線,這種通常就沒救了
03/02 21:32, 23F

03/07 03:53, 6年前 , 24F
5000筆資料如果能分布得像常態才怪哩! 而所謂 "基於常態分
03/07 03:53, 24F

03/07 03:55, 6年前 , 25F
布的統計方法", 又一稱呼是 "大樣本的統計方法". n=5000 勉
03/07 03:55, 25F

03/07 03:57, 6年前 , 26F
強可稱之為大樣本了吧? (廢話, 人家 n=30 都叫大樣本了!)
03/07 03:57, 26F

03/07 04:00, 6年前 , 27F
不過, 其實也不是這麼看的, 應該先問是要做什麼分析, 從子
03/07 04:00, 27F

03/07 04:04, 6年前 , 28F
樣本來看是否適用大樣本的統計方法. 總不能5000筆資料分割
03/07 04:04, 28F

03/07 04:06, 6年前 , 29F
成數百組相互比較還說是大樣本吧? 也不能近5000筆一組與十
03/07 04:06, 29F

03/07 04:08, 6年前 , 30F
幾筆一組的相比較還說是大樣本吧? 以比較平均數為例 (既然
03/07 04:08, 30F

03/07 04:10, 6年前 , 31F
提到 t 檢定, 辜且認為是比較平均數吧.) 是否適用大樣本方
03/07 04:10, 31F

03/07 04:12, 6年前 , 32F
法, 看的是分組後各組是否子樣本的分布長得像來自常態群體
03/07 04:12, 32F

03/07 04:14, 6年前 , 33F
(別指望真的來自常態群體, 大概像常態就可以了.) 其次看樣
03/07 04:14, 33F

03/07 04:16, 6年前 , 34F
本數最小那一組是否足以引用中央極限定理 (也就是能否稱是
03/07 04:16, 34F

03/07 04:18, 6年前 , 35F
大樣本). 以 t 檢定的穩健性, 除非子樣本特小或樣本分布的
03/07 04:18, 35F

03/07 04:21, 6年前 , 36F
形態特偏, 否則適用 t 檢定大多是沒問題的.
03/07 04:21, 36F

03/09 01:14, 6年前 , 37F
我只是要推一下久不見的老怪物帳號 :)
03/09 01:14, 37F

05/02 12:50, 6年前 , 38F
我印象中CLT指的是樣本平均會收斂到常態分配,你這裡
05/02 12:50, 38F

05/02 12:50, 6年前 , 39F
是指樣本"平均"嗎?
05/02 12:50, 39F
文章代碼(AID): #1SU8uQ-q (Statistics)
文章代碼(AID): #1SU8uQ-q (Statistics)