[問題] 推論統計考題

看板Statistics作者 (Olivia baby)時間11年前 (2014/08/22 06:26), 11年前編輯推噓0(0092)
留言92則, 3人參與, 最新討論串1/1
我覺得我的基本觀念不是很清楚(可我有翻了好幾遍講義還是無法融會貫通阿!!!><) 所以才寫不出這樣的題目,雖然殺雞焉用牛刀,但還是希望能得到版上大大的指點>< 【題目】 在修習統計學時,有一個理論一定是最早會被提到,這個理論影響了推論統計法的發展。 (1)請說明是哪個理論? 我猜是中央極限定理。 但剛開始我是想到描述統計,因為我記得描述統計是推論統計的基礎,推論統計是透過 整理過的樣本資料去推估母群資料。 但他說影響推論統計法發展又覺得應該是中央極限定理。 (2)說明此理論如何影響推論統計法的發展? 我想問t、卡方檢定的假設都是母群為常態對不對??(昨天有點被同學搞混了) 像t雖然n<30時抽樣分配長得不像常態, 但它的基本假定還是母群被假設為常態對嗎?? (中央極限定理1可以算是在講這句嗎??另卡方有用到中央極限定理嗎?) 如果是的話這題我可以朝這個方向寫嗎? >>如果沒有中央極限定理的假設, 那麼這些檢定就沒有一個可對照的比例分配(根據中央極限定理1), 也無法推估母群參數(根據中央極限定理2和3)。 ※下一題一直在考慮要不要放上來問,可是這題跟心理學有很大的關係嗎? (3)請以「心理學」的研究為例,來說明此理論在什麼情況下應該不可以被用? 我想說第一個步驟是不是要知道在統計上有哪些情況不能用這個理論, 第二步才是去想心理學有哪些不能用? 目前想到在統計上不能用的可能有母群本身不被假定為常態,或是個案研究(樣本=1)? (我同學有人說迴歸和無母數統計) ((小滴咕 每次來這個高手集散地問初統都好窘哦... 問述過程哪裡不好請各位大大鞭小力一點,我下次會改進 也希望有人可以理我一下 ((戳戳T_T -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.159.140.188 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1408659987.A.476.html

08/23 01:45, , 1F
(1) 我猜是中央極限定理沒錯.
08/23 01:45, 1F

08/23 01:47, , 2F
(2) 由於中央極限定理, 因此早期統計推論只考慮大樣本.
08/23 01:47, 2F

08/23 01:48, , 3F
至 t 分布的提出, 統計推論才轉向小樣本理論. 此時的小樣本
08/23 01:48, 3F

08/23 01:49, , 4F
推論是建立在 常態群體 的假設之下 --- 這就與中央極限定理
08/23 01:49, 4F

08/23 01:50, , 5F
是兩回事了. 又, t 分布在 d.f. 大時接近常態分布, 與中央
08/23 01:50, 5F

08/23 01:50, , 6F
極限定理不相干, 倒是與大數法則比較有關.
08/23 01:50, 6F

08/23 01:51, , 7F
卡方檢定, 如果是指列聯表檢定、配適度檢定, 那確實是中央
08/23 01:51, 7F

08/23 01:52, , 8F
極限定理的結果, 所以是 大樣本方法.
08/23 01:52, 8F

08/23 01:53, , 9F
(3) 如果 (1) 的答案是中央極限定理沒錯, 那麼, 不適用的
08/23 01:53, 9F

08/23 01:54, , 10F
情況也就是不宜引用中央極限定理, 也就是樣本不夠大的情況.
08/23 01:54, 10F

08/23 21:50, , 11F
感謝yhliu大大><
08/23 21:50, 11F

08/24 01:59, , 12F
也有可能(1)是大數法測
08/24 01:59, 12F

08/24 02:02, , 13F
(2)就可能是說用大數法則定義機率的死循環,直到上世紀
08/24 02:02, 13F

08/24 02:04, , 14F
發展出 frequentist 和 Bayesian 兩種不同的統計學
08/24 02:04, 14F

08/24 02:13, , 15F
(3)除了yhliu上述的答案,還有就是樣本之間獨立的問題
08/24 02:13, 15F

08/24 17:04, , 16F
我也思考過題意是否問大數法則. 不過, 細思覺得大數法則不
08/24 17:04, 16F

08/24 17:06, , 17F
是用在 "推論". 大數法則講的是例如 樣本平均≒群體平均,
08/24 17:06, 17F

08/24 17:07, , 18F
換言之, 就是 樣本≒群體, 根本無需 "推論" 了.
08/24 17:07, 18F

08/24 17:08, , 19F
至於樣本中觀測值之間的相互獨立性, 這不只涉及中央極限定
08/24 17:08, 19F

08/24 17:09, , 20F
理適用與否, 而是所有統計推論程序的適用性問題. 直言之,
08/24 17:09, 20F

08/24 17:11, , 21F
觀測值間相互不獨立, 依其關聯結構, 需要特殊的統計程序.
08/24 17:11, 21F

08/24 22:25, , 22F
看你怎樣定義"推論"。大數法則拿來堆論是 Bernoulli
08/24 22:25, 22F

08/24 22:26, , 23F
1713 年開始,Laplace 的 direct probabilty 是 1774
08/24 22:26, 23F

08/24 22:28, , 24F
高斯正態分佈的推論(finite variance)是 1809 年,
08/24 22:28, 24F

08/24 22:32, , 25F
高斯拿小樣本是1823-28 年,所以除非你把之前一百多年
08/24 22:32, 25F

08/24 22:34, , 26F
的統計學都不算(那貝葉斯就肯定不關推論統計什麼事了)
08/24 22:34, 26F

08/24 22:37, , 27F
大數法則不需要樣本≒群體,在沒有Kolmogorov/Salvage/
08/24 22:37, 27F

08/24 22:39, , 28F
...的機率論之前就已經在用了
08/24 22:39, 28F

08/24 22:43, , 29F
比如說 Bernoulli 自己就有推論 Bernoulli trial 的 p
08/24 22:43, 29F

08/24 22:45, , 30F
會在 N 越大時越穩定,也給了一個 lower bound
08/24 22:45, 30F

08/24 22:52, , 31F
感覺若然答案是CLT的話,則出題者必為 frequentist…
08/24 22:52, 31F

08/25 17:36, , 32F
我說 "大數法則" 就是直接說 樣本≒群體, 我可沒說基於大樣
08/25 17:36, 32F

08/25 17:37, , 33F
本的統計推論不算推論. 小樣本跟中央極限定理什麼關係? 小
08/25 17:37, 33F

08/25 17:38, , 34F
樣本推論就是基於 "正確" 分布的扭推論, 就是不依賴中央極
08/25 17:38, 34F

08/25 17:38, , 35F
限定理的推論.
08/25 17:38, 35F

08/25 17:39, , 36F
當然要說基於大數法則 "樣本≒群體" 的統計分析是推論也無
08/25 17:39, 36F

08/25 17:40, , 37F
不可, 畢竟還是從樣本猜群體. 只是這已經說 樣本≒群體 了,
08/25 17:40, 37F

08/25 17:41, , 38F
還有什麼好討論的? 就像說用樣本平均數估計群體平均數, 基
08/25 17:41, 38F

08/25 17:42, , 39F
於大數法則就是把樣本平均數算出, 而後說群體平均數大概就
08/25 17:42, 39F

08/25 17:43, , 40F
是這個值. 而基於中央極限定理的推論, 不僅算出點估計值(樣
08/25 17:43, 40F

08/25 17:44, , 41F
本平均數), 還算出樣本平均數之標準差或標準誤, 並可依此建
08/25 17:44, 41F

08/25 17:45, , 42F
立信賴區間, 或做關於群體平均數之假說檢定. 所謂統計推論,
08/25 17:45, 42F

08/25 17:46, , 43F
通常包括 點估計+抽樣誤差計算, 區間估計, 假說檢定, 預測.
08/25 17:46, 43F

08/25 17:47, , 44F
只算出點估計值而不考慮其誤差, 這樣的推論太粗糙.
08/25 17:47, 44F

08/25 17:48, , 45F
這還能扯到 frequentist 與 Bayesian 的問題?
08/25 17:48, 45F

08/26 11:51, , 46F
Bernoulli也有估計誤差啊,怎麼能說太粗糙?當然,他給
08/26 11:51, 46F

08/26 11:52, , 47F
的誤差現在看來是很粗糙的。
08/26 11:52, 47F

08/26 11:55, , 48F
我想我們的分歧是在於『推論統計』的定義上,若你把它
08/26 11:55, 48F

08/26 11:58, , 49F
定義成 R.A.Fisher 的那一套上,當然可以說CLT是始祖
08/26 11:58, 49F

08/26 11:59, , 50F
但若是定義廣泛一點,像 Cox 的 Principles of Stat.
08/26 11:59, 50F

08/26 12:05, , 51F
Inferences 的那樣,那麼weak LLN是第一步
08/26 12:05, 51F

08/26 12:07, , 52F
因為它給了plug-in principle作為parameter estimation
08/26 12:07, 52F

08/26 12:08, , 53F
然後才是『這個估算有多好?』的CLT,Edgeworth,...
08/26 12:08, 53F

08/26 12:09, , 54F
能夠扯出 frequentist vs Bayesian 是因為 Bayesian 的
08/26 12:09, 54F

08/26 12:10, , 55F
幾個中央極限定理在歷史上出現的時間都是頗後期的
08/26 12:10, 55F

08/26 12:12, , 56F
而且Bayesian推論是根本可以不用asymptotics的
08/26 12:12, 56F
不好意思,我想打個岔問一個問題(兩位大大的討論有點深澳我看不太懂^^") 我想再問~只有母群體是常態或被假設為常態才能使用中央極限定理嗎?

08/26 23:20, , 57F
不用,CLT只要有獨立+有限一、二次矩都可以用,也有
08/26 23:20, 57F

08/26 23:24, , 58F
非同分佈的版本、非獨立但相距"不遠"也可以在2+delta次
08/26 23:24, 58F

08/26 23:25, , 59F
矩有限時用
08/26 23:25, 59F
感謝kerwinhui大大的回答(不過我看不太懂有限一、二次矩之後那些東西..)

08/28 09:29, , 60F
勸君多讀書 --- 請讀教本! 會誤以為群體是常態才適用中央極
08/28 09:29, 60F

08/28 09:30, , 61F
限定理, 這基礎實在太薄弱! 若已知群體是常態, 幾乎已不需
08/28 09:30, 61F

08/28 09:31, , 62F
要中央極限定理了. 基本的東西不了解, 來這裡問也沒用, 因
08/28 09:31, 62F

08/28 09:32, , 63F
為你根本不可能判斷別人給的說法是對是錯, 屆時以訛為正,
08/28 09:32, 63F

08/28 09:33, , 64F
考試失分還只是小事, 用於實務問題, 造成大災難也未可知.
08/28 09:33, 64F
大大您誤會了,我並不是貪圖方便而偷懶不去看書,就如原文所說,我已經看好幾遍了, (講義、課本、上網查)但還是不清楚,林清山對於CLT的定義是: 「若我們重複從母群抽取樣本大小為N的許多樣本,則所得到的這許多樣本平均數將成為 常態分配,這些樣本平均數將等於Mu,標準差等於標準誤」 這段解釋讓我認為是不是母群要是常態或被假定為常態,接下來才能用樣本=母群平 均數和變異誤這兩個東西。 然後多數在講CLT(指我手邊有的書和所查網路資料)都只有講樣本大於30可為常態、 樣本平均數=母群平均數、變異誤這三樣東西,並沒有詳加敘述其他部分 ※ 編輯: b1c5h4s7 (49.159.158.211), 08/28/2014 16:37:47

09/01 11:51, , 65F
卻不知你如何看出群體要是常態?
09/01 11:51, 65F

09/01 11:53, , 66F
我是建議你 "多看教本", 並沒說你不看書. 事實上你是不懂什
09/01 11:53, 66F

09/01 11:54, , 67F
麼是中央極限定理, 所以從網路上看到的東西根本無法分辨何
09/01 11:54, 67F

09/01 11:54, , 68F
者正確何者錯誤.
09/01 11:54, 68F

09/01 11:55, , 69F
簡單隨機樣本的平均數幾乎不可能等於群體平均數, 是假設能
09/01 11:55, 69F

09/01 11:56, , 70F
重複做抽樣, 那麼重複無窮多次結果得到的無窮多個大小為 n
09/01 11:56, 70F

09/01 11:57, , 71F
的樣本平均數的平均數 (注意: 是許多樣本平均數的平均, 不
09/01 11:57, 71F

09/01 11:58, , 72F
是一個樣本的平均值), 會等於群體平均數. 這與中央極限定理
09/01 11:58, 72F

09/01 11:59, , 73F
無關! 中央極限定理說的是: 在簡單的條件下, 如果上述樣本
09/01 11:59, 73F

09/01 12:00, , 74F
大小 n 夠大, 那麼這許多樣本平均數構成的分布, 會接近常態
09/01 12:00, 74F

09/01 12:00, , 75F
分布. 再強調一次: E[Xbar] = μ, Var(Xbar) = σ^2/n 這與
09/01 12:00, 75F

09/01 12:01, , 76F
中央極限定理無關, 那是簡單隨機樣本必有的結果.
09/01 12:01, 76F

09/01 12:02, , 77F
至於中央極限定理所謂 "n 夠大", 並不是 "n 大於 30", 這是
09/01 12:02, 77F

09/01 12:02, , 78F
不懂的人以訛傳訛的結果!
09/01 12:02, 78F

09/01 12:03, , 79F
"n 夠大" 的 n 要多少, 與群體分布的特性有關, 也與能容忍
09/01 12:03, 79F

09/01 12:04, , 80F
的誤差有關. 因此, 我無法給你 n 要多大才算 "夠大" 的具體
09/01 12:04, 80F

09/01 12:07, , 81F
數字. 以前我曾做過一些模擬, 可惜所放的 bbs 站已關了!
09/01 12:07, 81F

09/01 12:08, , 82F
以 "n 大於 30" 或 "大於或等於30" 的由來, 應是來自一般統
09/01 12:08, 82F

09/01 12:09, , 83F
計教本都有的 t 分布在自由度 30 以上時可用標準常態分布近
09/01 12:09, 83F

09/01 12:10, , 84F
似. 很多人誤以為這就是中央極限定理, 大謬! t 分布在自由
09/01 12:10, 84F

09/01 12:11, , 85F
度大時接近常態分布的根源是 "大數法則", 是 樣本標準差
09/01 12:11, 85F

09/01 12:11, , 86F
近似群體標準差 的結果, 與中央極限定理是兩回事.
09/01 12:11, 86F

09/03 17:03, , 87F
的確,Wilcox好像出過幾份paper說明這個n>30仍然是不夠
09/03 17:03, 87F

09/03 17:05, , 88F
大,主要原因是不知道σ的情況下s^2會偏離χ^2分佈
09/03 17:05, 88F

09/03 17:22, , 89F
忘了說,30這個神奇的數字其實是來自於Student(t分佈的
09/03 17:22, 89F

09/03 17:24, , 90F
那個)曾經說過他自己的經驗是correlation correction
09/03 17:24, 90F

09/03 17:26, , 91F
factor在兩個獨立抽樣, n=30時大概沒影響了,之後就被
09/03 17:26, 91F

09/03 17:26, , 92F
人誤用至今…
09/03 17:26, 92F
文章代碼(AID): #1Jzd8JHs (Statistics)