Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?
認真回
這篇文章在講的事情是error propagation
如果我有兩個實驗數據
這兩個數據是獨立量測的
那我測到的第一組是A+/-a
第二組是B+/-b
假設你的實驗量總是常態分佈
有統計顯著意義應該是要
|A-B|>sqrt(a^2+b^2)
舉例來說 如果A=40 B=44 a=b=3
他認為統計顯著意義應該要是
|40-44|>sqrt(3^2+3^2)=4.26
但這條沒有成立 所以沒有統計顯著意義
那比較confidence interval的意義是甚麼呢
就是當我們設定95%信心水準樣本數1000
母體數很大的時候不太重要 但我們可以假設個一千萬
那對應的confidence interval大約是3%
也就是說我做無限次調查的時候
有95%的結果我可以肯定
支持某個選項的比例跟某個數值A的差距在3%之內
那在某些社會科學(有些自然科學好像也是)的慣例中
在誤差範圍內=在誤差範圍外的相反
甚麼是在誤差範圍外
就是我可以肯定我量測到的數值跟A的差距不是誤差導致的
換句話說就是
在誤差範圍內=A跟B的差距有可能是誤差導致的
但你可能會問這樣的機率很小怎麼辦
這就是為甚麼一開始要設定95%信心水準
當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍
接著再來比較這95%情況下有沒有可能(有沒有一種母體)
抽樣調查有可能測到A也有可能測到B
如果有可能 就是在誤差範圍內
如果不可能 就是在誤差範圍外
舉例來說 調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡
母體可能是
100011111000 支持率是41%
也可能是
110011111000 支持率是58%
也可能是
110000000000 支持率是17%
...
但你調查的時候只抽3個
你抽到 010 所以喜歡比例是33%
但有沒有誤差值? 有 95%信心下 誤差大概是50%
在這95%的母體中
有沒有可能有一個母體的真實支持率是60%? 有
有沒有可能有母體的真實支持率是90%? 沒有
(根據你的實驗結果 這樣的母體存在的機率不到5%)
為甚麼可以用實驗結果反推母體?
這也很簡單 因為你測到110
所以有沒有可能有母體是 000000000000?
不可能 所以實驗結果是可以反推可能的母體 跟他對應的比例的
所以統計觀念就進來了
95%信心水準下誤差50%的意思是
真實母體的支持率跟33%有沒有可能差超過50%
有可能 例如111111111110
但這種母體存在的比例不到5%
接著問題來了
現在有一間星巳克
你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別
所以你做了一樣的調查
結果呢你一樣抽三個 這次抽到111 喜歡比例是100%
接著你問根據這樣的實驗結果
有沒有可能出現一種母體 消費者對星巴克跟星巳克的喜歡是一樣的
答案是有 而且還蠻常見的 大約有9成的母體容許這種實驗結果
舉例來說 母體可能是
111000000001
111100000001
111110000001
.....
如果你支持3% 你可能會覺得奇怪
支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體
但是但是 這些都是假設信心95%的情況下
95%只是常用的標準
你可以說 我想要誤差0.001%可不可以
當然可以 如果你的信心只有1% 誤差就會很小
換句話說 你做了一個測量
你只要求母體實際支持率跟你量到的差距在0.001%內
那你就只會撈到可能1%左右的母體
那用這個基礎進行討論你就可以說
你有不到1%的信心 消費者喜歡星巳克多於星巴克
當然這是極端的例子 也許你會有80%的信心可以下這種結論
但通常習慣是用95%90%之類的就是了
回過頭來講
要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值
你的平行世界就只有一個
不會有這種背後有不同母體不同情況的可能性
而因為誤差 你實際做測量的時候的測量值大約是常態分佈
至於喜好調查這種東西呢
當你只抽樣調查 你是不會知道背後母體真實長的樣子的
所以你只能討論眾多可能性中 在某種給定條件的各種可能性下的結果
我知道風向不對
但科學精神就是這樣
如果你說我錯 你要講出我哪裡錯
如果你提出一個說法
這個說法要有可以被證明是錯的可能性(不一定錯 但要有可證偽性)
※ 引述《Popechiou (是我)》之銘言:
: https://i.imgur.com/XpDyyD8.jpg

: 剛剛在友版問問題,有朋友回應我這張圖,我看不懂,我只知道投降輸一半,不懂統計,
: 這張圖好像很厲害,請問有卦嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1700343468.A.4B3.html
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04
→
11/19 05:43,
2年前
, 1F
11/19 05:43, 1F

推
11/19 05:47,
2年前
, 2F
11/19 05:47, 2F
推
11/19 05:48,
2年前
, 3F
11/19 05:48, 3F
沒有錯 如果數據不是獨立就要考慮相關性
第一種常態分佈的例子中誤差有可能修正
至於是變大還是變小要看兩者是正相關還是負相關
回到統計的例子 基本上你是星巴克星巳克分開問的
所以你得到的兩個對於母體推論基本上是獨立的
推
11/19 05:49,
2年前
, 4F
11/19 05:49, 4F
→
11/19 05:49,
2年前
, 5F
11/19 05:49, 5F
推
11/19 05:56,
2年前
, 6F
11/19 05:56, 6F
推
11/19 05:57,
2年前
, 7F
11/19 05:57, 7F
→
11/19 05:57,
2年前
, 8F
11/19 05:57, 8F
我沒有在討論那個例子
你可以說這個假設下的論述不適用某個例子
而不是你假設錯了
再回來相關性這件事
首先你要放相關性進來考慮的就是第一個例子
假設有一個上帝知道的真實數值而不是有各種可能的母體
那確實正相關會使誤差傳遞比原本的誤差傳遞小
但問題來了 請問你如何知道cov(A,B)是多少呢?
推
11/19 06:04,
2年前
, 9F
11/19 06:04, 9F
民調當然沒有這項
因為通常計算covariance的時候是第一種例子
你在做實驗量測 量測一個數值
而不是做民調 調查支持比例
事情是這樣的
https://imgur.com/4zQ7Ztp

這是covariance
如果假設支持算1不支持算0 讓x_i要嘛1要嘛0
可能可以算至於能不能用我持保留態度
畢竟第一種常態分佈的狀況假設的是常態分佈
但0跟1顯然不是常態分佈
總之退一萬步我們用0跟1做個估計好了
但只是估計所以實際計算結果也許跟估計不一樣
總之
甚麼時候會得到最高的負相關呢
就是同一個人喜歡星巴克就不喜歡星巳克
甚麼時候會得到最高的正相關呢
就是同一個人喜歡星巴克就喜歡星巳克
的確正相關會讓誤差變小
但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人
高度正相關基本上是否定這個看法
因為高度正相關代表的是多數人兩個都一樣喜歡
推
11/19 06:11,
2年前
, 10F
11/19 06:11, 10F
推
11/19 06:15,
2年前
, 11F
11/19 06:15, 11F
→
11/19 06:16,
2年前
, 12F
11/19 06:16, 12F
→
11/19 06:16,
2年前
, 13F
11/19 06:16, 13F
→
11/19 06:32,
2年前
, 14F
11/19 06:32, 14F
概念是這樣的
首先我們知道做了測量之後各種母體存在的機率就不均等了
舉例來說你測到111
母體就不可能是00000
所以一般來說我們看的是把9成5的母體挑出來
看能不能排除某種情況
換句話說 能不能挑9成6的母體出來
且這些母體實際支持率跟測量的小於3%呢?
答案是不能 一旦你做了1000份問卷 這種可能性就被排除了
至於挑出來的9成5的母體裡面各種比例是多高?
這跟誤差範圍內是兩件事
因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多
但10成母體統計誤差是100%
所以有兩個不同的問題
1.我能不能猜哪個母體最有可能
答案是可以 而且你八成會猜是你量到的那個
可是這時候你猜錯母體的機率也很高
2.我可不可以降低猜錯母體的機率
並在這個基礎上排除某事件發生的機會
可以 這就是統計誤差
→
11/19 06:33,
2年前
, 15F
11/19 06:33, 15F
→
11/19 06:33,
2年前
, 16F
11/19 06:33, 16F
→
11/19 06:34,
2年前
, 17F
11/19 06:34, 17F
→
11/19 06:34,
2年前
, 18F
11/19 06:34, 18F
→
11/19 06:34,
2年前
, 19F
11/19 06:34, 19F
→
11/19 06:35,
2年前
, 20F
11/19 06:35, 20F
→
11/19 06:35,
2年前
, 21F
11/19 06:35, 21F
→
11/19 06:35,
2年前
, 22F
11/19 06:35, 22F
推
11/19 06:45,
2年前
, 23F
11/19 06:45, 23F
推
11/19 06:55,
2年前
, 24F
11/19 06:55, 24F
→
11/19 06:55,
2年前
, 25F
11/19 06:55, 25F
→
11/19 06:55,
2年前
, 26F
11/19 06:55, 26F
→
11/19 06:55,
2年前
, 27F
11/19 06:55, 27F
→
11/19 06:55,
2年前
, 28F
11/19 06:55, 28F
→
11/19 06:56,
2年前
, 29F
11/19 06:56, 29F
→
11/19 06:56,
2年前
, 30F
11/19 06:56, 30F
你說的沒錯 這就是第一種常態分佈的狀況
如果你在測量一個數值的時候
例如全班體重
我們會假設體重分布是常態分佈
再根據常態分佈各數值出現的機率去設定p value的閥值
至於問卷這種問題呢
基本上就是1跟0
畫成圖就是兩條bar
基本上不是常態分佈
並且處理的問題也不一樣
常態分佈是假設宇宙有個真實的值和真實的分布
這個分布就是常態分佈
所以他不用處裡母體的問題
也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了
(這跟P value的5%是不太一樣的概念)
因為你的"母體"就只會是常態分佈
至於問卷呢
我們要做的事情是在95%的母體中
討論某事件發生的機會有沒有可能完全被排除
→
11/19 06:56,
2年前
, 31F
11/19 06:56, 31F
→
11/19 06:56,
2年前
, 32F
11/19 06:56, 32F
→
11/19 06:58,
2年前
, 33F
11/19 06:58, 33F
→
11/19 06:58,
2年前
, 34F
11/19 06:58, 34F
→
11/19 06:59,
2年前
, 35F
11/19 06:59, 35F
→
11/19 06:59,
2年前
, 36F
11/19 06:59, 36F
→
11/19 07:00,
2年前
, 37F
11/19 07:00, 37F
→
11/19 07:00,
2年前
, 38F
11/19 07:00, 38F
母體=全體選民
民調=樣本
在沒選舉之前我們做民調得到得結果呢
可以有N種對應的母體
換句話說有N種可能的選民結構
可以讓我們做出今天的民調
但是呢
我能不能猜真的選舉的時候支持率會怎樣呢
可以 你會用你做的民調結果估計
但是呢 因為你的樣本數遠小於母體
所以真實的選舉結果跟你的民調結果大概不會一樣
差距有多大呢?
你做1000份民調
真實結果跟民調結果差距在3%以內的 有95%的可能性
差距在2%以內的 有80%的可能性
有沒有沒有誤差的 有可能性很接近0
OK 讓我們再回到相關性跟常態分佈的討論
你如果問說 今天做了一個民調
我能不能用常態分佈那一套來處理
我只能說我持保留態度
但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套
1.0跟1不是常態分佈 所以假設只可能是一種近似
2.常態分佈是對母體的一種假設 當你要排除某種可能性的時候
基本上是盡可能做越少假設越好 畢竟沒有人有好的理由說服別人
為甚麼真實母體應該是常態分佈
有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈
為甚麼我是持保留態不而不是否定
是因為統計這個東西基本上還是共識決
你說你要95%信心 我可不可以說要30%就好了
可以啊 你也可以說1%信心那你誤差就不見了
或者說要99.99%信心 那你誤差可能就大到快100%
95%這個共識基本上是因為好用
但甚麼是好用 怎樣定義好用?
這都是人決定的 所以你要用常態分佈行不行
也許吧 如果你覺得很好用的話
我只能說
一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈
我想再補充一點 雖然這裡應該沒有人會看
為甚麼常態分佈這麼棒呢?
這是因為大部分時候我們定義"距離"的時候都是用L2 norm
舉例來說
X = {x1,x2,...}
Y = {y1,y2,...}
如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm
基本上差距 誤差這種東西就是距離
如果我們是這樣定義距離的
那你要找到一個"正確"的分布
使得該分布跟所有可能分布的距離最小的話
那這個分布就是常態分佈
如果距離不再是L2 norm了 那這個分布就不會再是常態分佈
推
11/19 07:28,
2年前
, 39F
11/19 07:28, 39F
推
11/19 07:35,
2年前
, 40F
11/19 07:35, 40F
→
11/19 07:35,
2年前
, 41F
11/19 07:35, 41F
推
11/19 07:38,
2年前
, 42F
11/19 07:38, 42F
→
11/19 07:38,
2年前
, 43F
11/19 07:38, 43F
→
11/19 07:39,
2年前
, 44F
11/19 07:39, 44F
→
11/19 07:39,
2年前
, 45F
11/19 07:39, 45F
→
11/19 07:40,
2年前
, 46F
11/19 07:40, 46F
→
11/19 07:40,
2年前
, 47F
11/19 07:40, 47F
→
11/19 07:40,
2年前
, 48F
11/19 07:40, 48F
抱歉我不確定你有沒有再講常態分佈的事
主要是因為我回的那篇文在講的是常態分佈的統計
所以我話癆就多講了一點
針對你這個問題
估計總是可以的
但估計會估錯 統計誤差範圍處理的問題是給定信心水準我不要我估錯
我要確定可以排除是誤差導致或是說不能排除誤差影響
換言之
估計做的是是說"很有可能" 但不能告訴你多有可能
統計誤差要說的是"哪些不可能"
事情是這樣子的
只做民調我們"可能"活在各種各式各樣的平行宇宙中
但歸根究柢 我們只活在其中一個
舉例來說
我們抽到111
母體有可能是111111
也有可能是111110
你問我有沒有可能知道我再做一次民調會出現甚麼狀況呢?
如果我要有100%信心 答案是不能
如果我有5%信心可不可以
可以 因為我有5%信心真實母體一定是111111
所以抽到0的機會就是0
但5%信心夠不夠?
別人可能質疑你說那111110你怎麼不說?
所以問題基本上就是這樣
如果你認為母體是某個樣子
理論上你應該只能有5%信心
如果你要有95%信心那你必須容許某些母體而不是一個母體
並且最後你知道你只活在其中一個
但即便是這樣你還是能排除某些狀況
因為在這些母體中還是有某些狀況是不可能發生的
只要這些可能性不能排除
基本上就是在誤差範圍內
→
11/19 07:41,
2年前
, 49F
11/19 07:41, 49F
噓
11/19 07:41,
2年前
, 50F
11/19 07:41, 50F
→
11/19 07:42,
2年前
, 51F
11/19 07:42, 51F
推
11/19 07:42,
2年前
, 52F
11/19 07:42, 52F
推
11/19 07:43,
2年前
, 53F
11/19 07:43, 53F
推
11/19 07:48,
2年前
, 54F
11/19 07:48, 54F
→
11/19 07:48,
2年前
, 55F
11/19 07:48, 55F
→
11/19 07:48,
2年前
, 56F
11/19 07:48, 56F
→
11/19 07:48,
2年前
, 57F
11/19 07:48, 57F
不要說以你們專家來看
我不是研究統計學的 我只是常常會要用
如果你說以我看是怎樣
我只能說 https://imgur.com/Pmt6KOh

這張圖的情況出現的時候是不能排除"社會科學普遍使用的"統計誤差的
但我再講一次
統計這種東西基本上是共識決
你常常要放一些假設
假設是人放的 你可以堅持不用別人常用的假設
我想沒有人可以反對
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 08:01:44
推
11/19 07:58,
2年前
, 58F
11/19 07:58, 58F
→
11/19 08:01,
2年前
, 59F
11/19 08:01, 59F
→
11/19 08:02,
2年前
, 60F
11/19 08:02, 60F
→
11/19 08:02,
2年前
, 61F
11/19 08:02, 61F
→
11/19 08:03,
2年前
, 62F
11/19 08:03, 62F
→
11/19 08:03,
2年前
, 63F
11/19 08:03, 63F
→
11/19 08:03,
2年前
, 64F
11/19 08:03, 64F
→
11/19 08:04,
2年前
, 65F
11/19 08:04, 65F
推
11/19 08:04,
2年前
, 66F
11/19 08:04, 66F
→
11/19 08:04,
2年前
, 67F
11/19 08:04, 67F
→
11/19 08:04,
2年前
, 68F
11/19 08:04, 68F
→
11/19 08:05,
2年前
, 69F
11/19 08:05, 69F
→
11/19 08:06,
2年前
, 70F
11/19 08:06, 70F
→
11/19 08:06,
2年前
, 71F
11/19 08:06, 71F
→
11/19 08:06,
2年前
, 72F
11/19 08:06, 72F
→
11/19 08:07,
2年前
, 73F
11/19 08:07, 73F
→
11/19 08:07,
2年前
, 74F
11/19 08:07, 74F
→
11/19 08:07,
2年前
, 75F
11/19 08:07, 75F
→
11/19 08:08,
2年前
, 76F
11/19 08:08, 76F
→
11/19 08:08,
2年前
, 77F
11/19 08:08, 77F
推
11/19 08:25,
2年前
, 78F
11/19 08:25, 78F
→
11/19 08:26,
2年前
, 79F
11/19 08:26, 79F
→
11/19 08:26,
2年前
, 80F
11/19 08:26, 80F
推
11/19 08:26,
2年前
, 81F
11/19 08:26, 81F
→
11/19 08:26,
2年前
, 82F
11/19 08:26, 82F
→
11/19 08:26,
2年前
, 83F
11/19 08:26, 83F
→
11/19 08:27,
2年前
, 84F
11/19 08:27, 84F
推
11/19 08:29,
2年前
, 85F
11/19 08:29, 85F
推
11/19 09:18,
2年前
, 86F
11/19 09:18, 86F
推
11/19 09:19,
2年前
, 87F
11/19 09:19, 87F
推
11/19 09:41,
2年前
, 88F
11/19 09:41, 88F
誤差越小信心越低
如果你可以接受0%信心的話確實誤差要多大都可以
但你設定了信心水準
根據你的樣本數 誤差就是確定的
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 09:45:36
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):