[問題] 樣本數越大越好嗎

看板Statistics作者 (SaltLake)時間7年前 (2018/09/24 21:13), 7年前編輯推噓10(10024)
留言34則, 10人參與, 7年前最新討論串1/1
一般提到統計常常會想到樣本數,給定一個統計實驗 的設計方式之後,要增加統計檢定力(Power)的方式似 乎就是增加樣本數。 且不論多收樣本會增加成本等實務因素,理論上,增加 樣本數是否就單純讓統計結果更可信,不會有負面影響? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.44.193.228 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1537794798.A.EFF.html

09/24 22:38, 7年前 , 1F
現實世界的採樣有成本。
09/24 22:38, 1F

09/25 10:11, 7年前 , 2F
樣本能跟母體一樣當然最好
09/25 10:11, 2F

09/25 12:23, 7年前 , 3F
09/25 12:23, 3F

09/25 15:06, 7年前 , 4F
如果你的樣本不是有偏的就好
09/25 15:06, 4F

09/25 17:21, 7年前 , 5F
$$$$$$$
09/25 17:21, 5F

09/25 22:30, 7年前 , 6F
好奇一問 因樣本太大造成統計上顯著該怎麼辦
09/25 22:30, 6F
意思是真正應該是不顯著但卻表現得顯著? 這不就是偽陽性(第I型誤差)嗎? 偽陽性會因為樣本變大而"更可能"發生?

09/25 23:21, 7年前 , 7F
「我很有把握說H0錯了,即使H0只錯了一點點而已。」
09/25 23:21, 7F
厄,支持樓上的"把握"之證據怎來? 所謂"只錯了一點點而已"是錯多少? 估計的方式是? 得到該估計值的方法是? ※ 編輯: saltlake (114.44.193.96), 09/26/2018 04:35:05

09/26 10:31, 7年前 , 8F
怎麼可能會有負面影響 最極端狀況就是樣本數=母體
09/26 10:31, 8F

09/26 11:00, 7年前 , 9F
例如事實上為p=0.501的不公平銅板但你可以投擲一億次
09/26 11:00, 9F

09/26 11:01, 7年前 , 10F
仍會能夠指出H0:p=0.5是有問題的
09/26 11:01, 10F

09/26 19:19, 7年前 , 11F
樓上這個問題可以用模糊邏輯來修理吧?接受0,1以外的真值
09/26 19:19, 11F

09/26 20:07, 7年前 , 12F
這必需取決於你使用什麼樣的模型與什麼樣的估計量與檢
09/26 20:07, 12F

09/26 20:07, 7年前 , 13F
定量
09/26 20:07, 13F

09/26 20:09, 7年前 , 14F
在比較複雜的模型中,你的樣本增加,待估參數也會增加
09/26 20:09, 14F

09/26 20:09, 7年前 , 15F
,如何有效的降維度又是另一門學問了
09/26 20:09, 15F
樓上能給具體實例嗎? 光看目前上述抽象寫法無法理解這主張的合理性。 抽樣是為了對母體作近似,而在母體不變且原本所取的估計參數不變下, 怎麼會單純因為對同一母體取更多樣本而出現更多的參數來影響原本所要 的估計參數之結果? 比方說要探討某治療乳癌的新藥的藥效,確實倘原本只對女人抽樣,之後 增加樣本時也對男人抽樣,會因為男女人罹患乳癌的機制和機轉的差異而 對藥效的估計產生差異。但這現象癥結在於對於評估乳癌藥效而言,因為 男女人本質的差異,自始就應該把男人和女人區分成不同的母體而分別做 抽樣和估計。 ※ 編輯: saltlake (114.44.244.2), 09/26/2018 21:17:37

09/27 00:50, 7年前 , 16F
你所提的這個例子,一般會使用ANOVA來分析是嗎? 如果
09/27 00:50, 16F

09/27 00:50, 7年前 , 17F
是,那你是對的,樣本數多多益善
09/27 00:50, 17F

09/27 00:53, 7年前 , 18F
如果考慮的是因子模型或面版模型……那就要考慮很多情
09/27 00:53, 18F

09/27 00:53, 7年前 , 19F
況了
09/27 00:53, 19F

09/27 06:05, 7年前 , 20F
原本只對女性抽樣, 改成對男女性都抽樣, 這是群體變化了,
09/27 06:05, 20F

09/27 06:06, 7年前 , 21F
無法用來談 "樣本增大是否有利無害". 要談, 就在同一群體上
09/27 06:06, 21F

09/27 06:07, 7年前 , 22F
談.
09/27 06:07, 22F

09/27 06:09, 7年前 , 23F
樣本增大除了成本增加外, 還有許多問題, 包括增大非抽樣誤
09/27 06:09, 23F

09/27 06:11, 7年前 , 24F
差. 單以抽樣誤差來說, 確實樣本愈大抽樣誤差愈小, 極致就
09/27 06:11, 24F

09/27 06:13, 7年前 , 25F
是 樣本 = 群體, 即普查, 沒有抽樣誤差. 就統計假說檢定而
09/27 06:13, 25F

09/27 06:15, 7年前 , 26F
言就是很容易推翻 H0 而接受 Ha. 這種容易接受 H1 並不是
09/27 06:15, 26F

09/27 06:17, 7年前 , 27F
型I誤機率增大所致, 型I誤機率, 也就是 H0 成立卻被推翻
09/27 06:17, 27F

09/27 06:20, 7年前 , 28F
的機率永遠受制於顯著水準. 這種容易接受 Ha 往好處看是檢
09/27 06:20, 28F

09/27 06:23, 7年前 , 29F
定力的提高, 也就是減低型II誤機率, 往壞處看就是吹毛求疵
09/27 06:23, 29F

09/27 06:25, 7年前 , 30F
(說好聽點是明察秋毫), 也就是和 H0 稍有差異, H0 就被推翻
09/27 06:25, 30F

09/27 06:27, 7年前 , 31F
這 "稍有差異" 如果有實質用處, 就是敏感度好; 如果是無傷
09/27 06:27, 31F

09/27 06:29, 7年前 , 32F
大雅的差異, 就可以說是 "過敏" 了. 因此, 實務統計上除了
09/27 06:29, 32F

09/27 06:31, 7年前 , 33F
檢定程序上探問是否具備統計顯著性(是否 reject H0)以外,
09/27 06:31, 33F

09/27 06:33, 7年前 , 34F
也耍評估 "實質顯著性", 也就是評估真實差異是否具實際意義
09/27 06:33, 34F
文章代碼(AID): #1RgEBkx_ (Statistics)