Re: [問題] 請問樣本數太大所造成統計顯著問題
※ 引述《m936050017.bbs@ptt.cc (我是魚)》之銘言:
> 我的研究樣本數太大2000多份
> 原本設p<.05
> 在t-test和anova分析的時候
> 很容易就達到顯著性差異
> 那如果我設p<.01的話
> 是不是可以解決掉樣本數太大易達顯著的問題?
> 拜託各位大大幫我回答一下
> 或是有哪個學者有說過樣本數太大易達顯著的問題
> 和解決的方法?
> 感謝各位大大
樣本 "太大" 的問題, 是貝氏學派攻擊 N-P test 理論的
論點之一. 除了貝氏學者以具氏方法 "解決" 此問題之外,
非貝氏學者也有從 "indifference zone" 觀點尋求解決.
可查閱貝氏分析的書, 或研究所層級的數理統計教本. 網
路搜尋可試試 "Lindley's paradox" 或 "Jeffreys' paradox".
以下轉貼一篇舊文, 算是個人對此問題的看法.
[轉自 telnet://bbs.ncku.edu.tw 的 Statistics 版]
標題 統計與機率的詭論 --- Lindley's paradox (大樣本的困境)
時間 Sun Apr 1 18:29:36 2001
統計上能稱得上 "詭論" 的, 常涉及深層的統計基礎
理論或思想, Lindley 詭論就是這樣一個例子。
Lindley 詭論, 是 1957 年 Lindley 在 Biometrika
所發表的; 不過, 彼所描述的現象, Jeffreys 在其
1939 年的專著 Theory of Probabilities 就提到了,
所以有時也稱之為 Jeffreys' paradox, 只是 Jeffreys
並未稱之為 "詭論"。
Lindley 詭論涉及 Bayesian (貝氏學派) 和 frequentist
(頻率論者) 的爭議。以我之不學無術, 若介入其中馬
上要被批死鬥垮, 因此在這裡將只談及 Neyman-Pearson
檢定之大樣本困境及其解套, 而避免涉及貝氏觀點 ----
雖然, 其實認真說起來這個詭論根本離不開貝氏/非貝氏
之爭....有興趣的讀者可參考
Lee, P. M. (1989)
Bayesian Statistics: an introduction,
New York: Oxford University Press,
pp.134-143
及其中所提及的原始文獻。
考慮一個統計假說檢定
H0: θ=θ0 對 H1: θ<>θ0
例如常態群體平均數檢定 (其他檢定結果也一樣)。
在樣本數 n 及顯著水準固定時, 可找到一個臨界值,
與樣本統計量比較, 做成決策; 或者, 可計算 p 值,
和顯著水準比較。
問題是: 當樣本數 n 很大時, 實務上可能發現幾乎
都會棄絕虛無假說 H0。因此, 有所謂
"統計學家 (或: Neyman-Pearson 學派的統計
學家) 可以証明任何事"
的批評。
也許這樣講大家不會明白有何不對? 舉兩個例子:
(1) 在辦理抽樣調查時, 我們希望樣本能代表群體。
但若樣本數很大, 可能我們會得到不希望見到的
結果: 卡方適合度檢定顯示樣本和群體不一致!
(2) 在一些統計資料分析中常有常態性條件 (normality
assumption), 因此分析者會做常態性檢定。如
果你的樣本數很大, 例如5000甚至上萬個觀測值,
可能各種數值性 (即: 不是看圖說話) 的常態性
檢定都很無情地告訴你: 這個樣本不是來自常態
群體!
問題何在? 我們幾乎不可能得到真正的 "θ=θ0" 的
結果; 我們面對的幾乎都不是百分之百的常態群體;
我們的抽樣程序加上調查回覆率, 幾乎不可能得到百
分之百的完全具代表性的樣本。換言之, θ 和 θ0
之間可能有一點點差距; 調查時不同特性的對像回覆
率多少有些差異; 我們的資料背後的群體和完美的常
態群體雖然很像卻不完全相同。然而, 這些差距重要
嗎?
從純粹 Neyman-Pearson 觀點, 其實不難解決上述問
題。如果θ和θ0確實不同, 即使差異極微, 只要樣本
夠大, 統計人員應該很容易發現, 也就是檢定力 (power
of the test) 要夠大, 否則就不是好的檢定。然而,
實際問題並不需要 "θ=θ0" 這麼數學化的嚴苛要求!
我們要的是 "θ0-h<=θ<=θ0+h" 而已, "h" 的差距
並不造成結果應用的差異。例如: 一種藥品的有效率
是 80% 或 81% 並無實質差異, 甚至 80%(+/-)5% 都
可認為是一樣的。因此, 所謂 "θ=θ0" 這個假說只
是 "θ0-h<=θ<=θ0+h" 的簡化形式罷了!
如果目標值是 θ0, 當 n 很大時虛無假說用 "θ=θ0"
會發生問題, 改用 "θ0-h<=θ<=θ0+h", 表示實際上
從 θ0-h 到 θ0+h 都可認為是和 θ0 無差別, 則不
會不適切地棄絕合適的假說。
但 n 小時以 "θ0-h<=θ<=θ0+h" 取代 "θ=θ0", 將
不必要地過度保護 H0 (θ=θ0)。那麼, 多大的 n 才
適合用區間型的虛無假說取代單點虛無假說? 其實, 也
不一定要更動虛無假說, 或降低顯著水準! "實質顯著性"
的概念, 即是傳統方法的解答。對任一檢定問題, 如上
述 "θ0-h<=θ<=θ0+h" 的問題, θ的點估計量T和θ0
的差, 是 θ-θ0 的估計量。當樣本數 n 很大時, 它足
以代表 θ-θ0。只當 |T-θ0|>h 時, 才認為這項顯著
性有實質意義, 稱為 "實質顯著性"。
採用 "統計顯著性" 搭配 "實質顯著性"
(1) 未達統計顯著性 (即: 統計檢定不顯著)
==> 不棄絕 H0
(2) 達統計顯著性, 但不具實質顯著性
==> 忽略統計顯著性
只當統計顯著性及實質顯著性都達到時, 才認為應接受
對立假說 (alternative hypothesis)。那麼, 還需為
Lindley's paradox 而煩惱嗎?
--
嗨! 你好! 祝事事如意, 天天 happy! 統計專業版, 需要你的支持! :)
無名小站 telnet://wretch.twbbs.org Statistics (統計方法討論區)
盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話)
成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區)
交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率)
★本文未經本人同意請勿轉載; 回覆請勿全文引用, 請僅留下直接涉及部分。
--
夫兵者不祥之器物或惡之故有道者不處君子居則貴左用兵則貴右兵者不祥之器非君子
之器不得已而用之恬淡為上勝而不美而美之者是樂殺人夫樂殺人者則不可得志於天下
矣吉事尚左凶事尚右偏將軍居左上將軍居右言以喪禮處之殺人之眾以哀悲泣之戰勝以
喪禮處之道常無名樸雖小天下莫能臣侯王若能守之萬物將自賓天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦將知止知止可以不殆譬道之在天 163.15.188.87海
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):