[問題] 請問均值回歸vs. 試驗之間獨立概念比較

看板Statistics作者 (hackintosh)時間1年前 (2024/06/08 16:43), 編輯推噓1(1043)
留言44則, 4人參與, 1年前最新討論串1/1
大家好, 在看完快思慢想這本書時, 裡面有討論到兩個統計概念 (1) 均值回歸(regresssion to the mean) (2) 賭徒謬誤(gambler fallacy) 對於以下範例, 我覺得兩個概念所得出的結論互相衝突, 想請前輩們幫忙釐清概念~ 假設賭徒A丟了十次硬幣, 前九次都是正面 (1) 根據均值回歸, 如果隨機變數的一個樣本是極端值,同一隨機變數的下一個抽樣可能 更接近其平均值。因此會猜第十次硬幣是反面機率較高 (2) 根據賭徒謬誤, 意識到十次硬幣之間的投擲彼此為獨立事件,因此會猜第十次正反面 機率結果相同 如果是以運動員的例子來看, 假設每場比賽贏球機率相同(當然實際上不可能), 十次中 前九次都贏球 (1) 根據均值回歸, 因為前九次都贏球, 會認為第十次輸球的機率較大 (2) 根據賭徒謬誤, 意識到獨立事件這個概念, 會認為第十次贏輸球機率跟前九次相同 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.237.158 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1717836216.A.719.html

06/09 01:02, 1年前 , 1F
似乎誤解了RTM。RTM是指極端出現後的下次測量會有高機率
06/09 01:02, 1F

06/09 01:03, 1年前 , 2F
靠近平均的測量出現,並不是你描述的情境。
06/09 01:03, 2F

06/09 01:05, 1年前 , 3F
修改你的例子成:賭徒一次每次擲10硬幣,在某次9正1反的
06/09 01:05, 3F

06/09 01:06, 1年前 , 4F
極端情況出現後,下次結果不那麼極端的機率較高。
06/09 01:06, 4F

06/09 08:07, 1年前 , 5F
個人認為1F的解釋有誤導之嫌,均值迴歸是在觀測值獨立的
06/09 08:07, 5F

06/09 08:09, 1年前 , 6F
假設下發生的,並沒有"極端出現後的下次測量會有高機率..."
06/09 08:09, 6F

06/09 08:10, 1年前 , 7F
的事!就好像丟公正銅板實驗,出現連績10次正面也不會因
06/09 08:10, 7F

06/09 08:12, 1年前 , 8F
此後續出現反面的機率增加。另外,regression to the mean
06/09 08:12, 8F

06/09 08:14, 1年前 , 9F
譯為 "均值迴歸" 個人認為失去原意,應是 "圁歸(至)均值"。
06/09 08:14, 9F

06/09 08:15, 1年前 , 10F
回歸均值的理由不是極端值出現導致什麼,相反的,是因極端
06/09 08:15, 10F

06/09 08:18, 1年前 , 11F
值出現不能導致後續杞同方向的極端值繼績出現。就單變數單
06/09 08:18, 11F

06/09 08:19, 1年前 , 12F
體抽樣來講,是樣本平均值會比單一觀測值更接近群體平均值
06/09 08:19, 12F

06/09 08:21, 1年前 , 13F
的原理;就回歸平均的原始文敵來說,是 (X,Y) 的配對抽樣,
06/09 08:21, 13F

06/09 08:22, 1年前 , 14F
假設 E[X]=E[Y],回歸平均說的是一對觀測值 (X,Y), 當 X 比
06/09 08:22, 14F

06/09 08:24, 1年前 , 15F
E[X] 高很多時,常出現 Y-E[Y] 比 X-E[X] 小的現象;反之,
06/09 08:24, 15F

06/09 08:25, 1年前 , 16F
X 比 E[X] 小很多時, E[Y]-Y 也傾各於比 E[X]-X 小 (前面假
06/09 08:25, 16F

06/09 08:27, 1年前 , 17F
設 E[X]=E[Y] 還不夠,原作者應是認為 X 與 Y 同分布)
06/09 08:27, 17F

06/09 08:29, 1年前 , 18F
回歸平均的成因,如果 X 和 Y 都只是隨機的,兩者並無關聯
06/09 08:29, 18F

06/09 08:31, 1年前 , 19F
則前述單變數的情形的解釋就夠了。假設 X, Y 具有正關聯,
06/09 08:31, 19F

06/09 08:33, 1年前 , 20F
高 X 當然會配對出高的 Y,低 X 配對低的 Y。在這假設下,
06/09 08:33, 20F

06/09 08:36, 1年前 , 21F
看到特別高的 X 很可能是屬於偏高的離群值,而 Y 不會隨著
06/09 08:36, 21F

06/09 08:39, 1年前 , 22F
X 的偏高而偏高。X 特別低時也是,Y 並不會傾向於特別偏低
06/09 08:39, 22F

06/09 08:41, 1年前 , 23F
識者當問:X 高不見得它是偏高的離群值啊!沒錯,但回歸平
06/09 08:41, 23F

06/09 08:42, 1年前 , 24F
均現象被注意到的常是整個 X 資料特高或特低的,而回歸平均
06/09 08:42, 24F

06/09 08:44, 1年前 , 25F
現象其實被看到的是估計的 E[Y|X] 的模樣。
06/09 08:44, 25F

06/09 08:47, 1年前 , 26F
關於回歸平均的一個解釋,可參酌我的一篇網文:
06/09 08:47, 26F

06/09 08:47, 1年前 , 27F

06/09 08:55, 1年前 , 28F
再談賭徒謬誤,如果銅板是公正的,投擲手法沒問題,前面投
06/09 08:55, 28F

06/09 08:57, 1年前 , 29F
擲結果不會影響後面出現正面的機率。謬誤推理在於對大數法
06/09 08:57, 29F

06/09 08:59, 1年前 , 30F
則或回歸平均的誤解。用大數法則來解釋,投擲無數次出現正
06/09 08:59, 30F

06/09 09:01, 1年前 , 31F
面的相對比例趨近於出現正面的機率,這並沒有說後面會出現
06/09 09:01, 31F

06/09 09:02, 1年前 , 32F
較多次反面來平衡前面多出來的正面,是平均的效果而非平衡
06/09 09:02, 32F

06/09 09:03, 1年前 , 33F

06/09 09:05, 1年前 , 34F
從回歸平均來解釋,只是說不會因為前面連續10次正面後續
06/09 09:05, 34F

06/09 09:06, 1年前 , 35F
接連出現正面,而傾向於依本來機率出現正面或反面,也就是
06/09 09:06, 35F

06/09 09:07, 1年前 , 36F
如果銅板是公正的,後續正反面出現機會是相同的。
06/09 09:07, 36F

06/09 09:09, 1年前 , 37F
不過,從統計觀點,假設我們不知銅板是否公正,丟擲手法有
06/09 09:09, 37F

06/09 09:11, 1年前 , 38F
沒問題,那麼,看到連續十次正面,我們有理由懷疑:(1) 銅
06/09 09:11, 38F

06/09 09:12, 1年前 , 39F
板不是公正的; 或 (2) 丟擲手法有問題,或者能造成出現正
06/09 09:12, 39F

06/09 09:14, 1年前 , 40F
面機率較高,或者能控制丟擲結果。
06/09 09:14, 40F

06/09 10:52, 1年前 , 41F
我大概理解成賭徒謬誤並非大數法則(丟10000次銅板)
06/09 10:52, 41F

06/09 10:52, 1年前 , 42F
所以不適用regression to the mean這個概念
06/09 10:52, 42F

06/09 10:52, 1年前 , 43F
謝謝以上前輩指點
06/09 10:52, 43F

09/08 22:48, 1年前 , 44F
文章代碼(AID): #1cP1cuSP (Statistics)