Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?

看板Gossiping作者 (建築師巴布)時間2年前 (2023/11/19 05:37), 2年前編輯推噓23(24163)
留言88則, 25人參與, 2年前最新討論串2/2 (看更多)
認真回 這篇文章在講的事情是error propagation 如果我有兩個實驗數據 這兩個數據是獨立量測的 那我測到的第一組是A+/-a 第二組是B+/-b 假設你的實驗量總是常態分佈 有統計顯著意義應該是要 |A-B|>sqrt(a^2+b^2) 舉例來說 如果A=40 B=44 a=b=3 他認為統計顯著意義應該要是 |40-44|>sqrt(3^2+3^2)=4.26 但這條沒有成立 所以沒有統計顯著意義 那比較confidence interval的意義是甚麼呢 就是當我們設定95%信心水準樣本數1000 母體數很大的時候不太重要 但我們可以假設個一千萬 那對應的confidence interval大約是3% 也就是說我做無限次調查的時候 有95%的結果我可以肯定 支持某個選項的比例跟某個數值A的差距在3%之內 那在某些社會科學(有些自然科學好像也是)的慣例中 在誤差範圍內=在誤差範圍外的相反 甚麼是在誤差範圍外 就是我可以肯定我量測到的數值跟A的差距不是誤差導致的 換句話說就是 在誤差範圍內=A跟B的差距有可能是誤差導致的 但你可能會問這樣的機率很小怎麼辦 這就是為甚麼一開始要設定95%信心水準 當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍 接著再來比較這95%情況下有沒有可能(有沒有一種母體) 抽樣調查有可能測到A也有可能測到B 如果有可能 就是在誤差範圍內 如果不可能 就是在誤差範圍外 舉例來說 調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡 母體可能是 100011111000 支持率是41% 也可能是 110011111000 支持率是58% 也可能是 110000000000 支持率是17% ... 但你調查的時候只抽3個 你抽到 010 所以喜歡比例是33% 但有沒有誤差值? 有 95%信心下 誤差大概是50% 在這95%的母體中 有沒有可能有一個母體的真實支持率是60%? 有 有沒有可能有母體的真實支持率是90%? 沒有 (根據你的實驗結果 這樣的母體存在的機率不到5%) 為甚麼可以用實驗結果反推母體? 這也很簡單 因為你測到110 所以有沒有可能有母體是 000000000000? 不可能 所以實驗結果是可以反推可能的母體 跟他對應的比例的 所以統計觀念就進來了 95%信心水準下誤差50%的意思是 真實母體的支持率跟33%有沒有可能差超過50% 有可能 例如111111111110 但這種母體存在的比例不到5% 接著問題來了 現在有一間星巳克 你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別 所以你做了一樣的調查 結果呢你一樣抽三個 這次抽到111 喜歡比例是100% 接著你問根據這樣的實驗結果 有沒有可能出現一種母體 消費者對星巴克跟星巳克的喜歡是一樣的 答案是有 而且還蠻常見的 大約有9成的母體容許這種實驗結果 舉例來說 母體可能是 111000000001 111100000001 111110000001 ..... 如果你支持3% 你可能會覺得奇怪 支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體 但是但是 這些都是假設信心95%的情況下 95%只是常用的標準 你可以說 我想要誤差0.001%可不可以 當然可以 如果你的信心只有1% 誤差就會很小 換句話說 你做了一個測量 你只要求母體實際支持率跟你量到的差距在0.001%內 那你就只會撈到可能1%左右的母體 那用這個基礎進行討論你就可以說 你有不到1%的信心 消費者喜歡星巳克多於星巴克 當然這是極端的例子 也許你會有80%的信心可以下這種結論 但通常習慣是用95%90%之類的就是了 回過頭來講 要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值 你的平行世界就只有一個 不會有這種背後有不同母體不同情況的可能性 而因為誤差 你實際做測量的時候的測量值大約是常態分佈 至於喜好調查這種東西呢 當你只抽樣調查 你是不會知道背後母體真實長的樣子的 所以你只能討論眾多可能性中 在某種給定條件的各種可能性下的結果 我知道風向不對 但科學精神就是這樣 如果你說我錯 你要講出我哪裡錯 如果你提出一個說法 這個說法要有可以被證明是錯的可能性(不一定錯 但要有可證偽性) ※ 引述《Popechiou (是我)》之銘言: : https://i.imgur.com/XpDyyD8.jpg
: 剛剛在友版問問題,有朋友回應我這張圖,我看不懂,我只知道投降輸一半,不懂統計, : 這張圖好像很厲害,請問有卦嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1700343468.A.4B3.html ※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04

11/19 05:43, 2年前 , 1F

11/19 05:47, 2年前 , 2F
一場 選舉 全民上統計課 這畫面好美
11/19 05:47, 2F

11/19 05:48, 2年前 , 3F
前提是兩組獨立數據
11/19 05:48, 3F
沒有錯 如果數據不是獨立就要考慮相關性 第一種常態分佈的例子中誤差有可能修正 至於是變大還是變小要看兩者是正相關還是負相關 回到統計的例子 基本上你是星巴克星巳克分開問的 所以你得到的兩個對於母體推論基本上是獨立的

11/19 05:49, 2年前 , 4F
台灣人真可憐,一會兒要懂疫苗,一會
11/19 05:49, 4F

11/19 05:49, 2年前 , 5F
兒要懂統計
11/19 05:49, 5F

11/19 05:56, 2年前 , 6F
你假設錯了啊 柯侯跟侯柯就有相關性 而且是
11/19 05:56, 6F

11/19 05:57, 2年前 , 7F
如有天命 需要讓票?
11/19 05:57, 7F

11/19 05:57, 2年前 , 8F
正的 所以會比你估的小
11/19 05:57, 8F
我沒有在討論那個例子 你可以說這個假設下的論述不適用某個例子 而不是你假設錯了 再回來相關性這件事 首先你要放相關性進來考慮的就是第一個例子 假設有一個上帝知道的真實數值而不是有各種可能的母體 那確實正相關會使誤差傳遞比原本的誤差傳遞小 但問題來了 請問你如何知道cov(A,B)是多少呢?

11/19 06:04, 2年前 , 9F
看民調有沒有計算這項啊 我怎知==
11/19 06:04, 9F
民調當然沒有這項 因為通常計算covariance的時候是第一種例子 你在做實驗量測 量測一個數值 而不是做民調 調查支持比例 事情是這樣的 https://imgur.com/4zQ7Ztp
這是covariance 如果假設支持算1不支持算0 讓x_i要嘛1要嘛0 可能可以算至於能不能用我持保留態度 畢竟第一種常態分佈的狀況假設的是常態分佈 但0跟1顯然不是常態分佈 總之退一萬步我們用0跟1做個估計好了 但只是估計所以實際計算結果也許跟估計不一樣 總之 甚麼時候會得到最高的負相關呢 就是同一個人喜歡星巴克就不喜歡星巳克 甚麼時候會得到最高的正相關呢 就是同一個人喜歡星巴克就喜歡星巳克 的確正相關會讓誤差變小 但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人 高度正相關基本上是否定這個看法 因為高度正相關代表的是多數人兩個都一樣喜歡

11/19 06:11, 2年前 , 10F
請問什麼是越位
11/19 06:11, 10F

11/19 06:15, 2年前 , 11F
正解就是沒有raw data都算不出來啦
11/19 06:15, 11F

11/19 06:16, 2年前 , 12F
沒有原始數據要怎麼知道共變異數XD
11/19 06:16, 12F

11/19 06:16, 2年前 , 13F
DD
11/19 06:16, 13F

11/19 06:32, 2年前 , 14F
9成的母體 你是假設各種母體機率均等吧
11/19 06:32, 14F
概念是這樣的 首先我們知道做了測量之後各種母體存在的機率就不均等了 舉例來說你測到111 母體就不可能是00000 所以一般來說我們看的是把9成5的母體挑出來 看能不能排除某種情況 換句話說 能不能挑9成6的母體出來 且這些母體實際支持率跟測量的小於3%呢? 答案是不能 一旦你做了1000份問卷 這種可能性就被排除了 至於挑出來的9成5的母體裡面各種比例是多高? 這跟誤差範圍內是兩件事 因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多 但10成母體統計誤差是100% 所以有兩個不同的問題 1.我能不能猜哪個母體最有可能 答案是可以 而且你八成會猜是你量到的那個 可是這時候你猜錯母體的機率也很高 2.我可不可以降低猜錯母體的機率 並在這個基礎上排除某事件發生的機會 可以 這就是統計誤差

11/19 06:33, 2年前 , 15F
也就是0 1都50% 這樣能maximize interval
11/19 06:33, 15F

11/19 06:33, 2年前 , 16F
我不是很確定同時比兩組數據這樣公平嗎
11/19 06:33, 16F

11/19 06:34, 2年前 , 17F
而且實際上因為有賴 所以其實不論柯或侯
11/19 06:34, 17F

11/19 06:34, 2年前 , 18F
母體比率應該都<<0.5 直接用0.5估
11/19 06:34, 18F

11/19 06:34, 2年前 , 19F
然後要求interval不能疊 怪怪der
11/19 06:34, 19F

11/19 06:35, 2年前 , 20F
這例子不太像星巴克 but anyway
11/19 06:35, 20F

11/19 06:35, 2年前 , 21F
為什麼智商157還有統計學博士簽的約
11/19 06:35, 21F

11/19 06:35, 2年前 , 22F
可以不清不楚 定義都沒定義好
11/19 06:35, 22F

11/19 06:45, 2年前 , 23F
學生時代的惡魔又回來了
11/19 06:45, 23F

11/19 06:55, 2年前 , 24F
我知道的是重點在如果你要比較兩組有差異
11/19 06:55, 24F

11/19 06:55, 2年前 , 25F
的數據是不是有顯著差異你會設定一個P值,
11/19 06:55, 25F

11/19 06:55, 2年前 , 26F
就是當你的假說是真的時候,你的結果出現
11/19 06:55, 26F

11/19 06:55, 2年前 , 27F
極端情形的機率(例如常態分佈單雙尾的5% 9
11/19 06:55, 27F

11/19 06:55, 2年前 , 28F
5%,P value=0.05), 你去計算你要比較數據
11/19 06:55, 28F

11/19 06:56, 2年前 , 29F
的p value是不是低於設定值你才會知道是不
11/19 06:56, 29F

11/19 06:56, 2年前 , 30F
是有統計上有顯著差距的意義
11/19 06:56, 30F
你說的沒錯 這就是第一種常態分佈的狀況 如果你在測量一個數值的時候 例如全班體重 我們會假設體重分布是常態分佈 再根據常態分佈各數值出現的機率去設定p value的閥值 至於問卷這種問題呢 基本上就是1跟0 畫成圖就是兩條bar 基本上不是常態分佈 並且處理的問題也不一樣 常態分佈是假設宇宙有個真實的值和真實的分布 這個分布就是常態分佈 所以他不用處裡母體的問題 也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了 (這跟P value的5%是不太一樣的概念) 因為你的"母體"就只會是常態分佈 至於問卷呢 我們要做的事情是在95%的母體中 討論某事件發生的機會有沒有可能完全被排除

11/19 06:56, 2年前 , 31F
不是 我是指 假設母體有10個 你測2個
11/19 06:56, 31F

11/19 06:56, 2年前 , 32F
排除掉不可能發生的 剩下的用2選1 0/1去湊
11/19 06:56, 32F

11/19 06:58, 2年前 , 33F
猜0.5的好處是能CI啊XD 你單純要檢定一個
11/19 06:58, 33F

11/19 06:58, 2年前 , 34F
我覺得max CI很合理 CI最大都能跑出去
11/19 06:58, 34F

11/19 06:59, 2年前 , 35F
肯定能跑出去了 但如果想玩兩個CI不重疊
11/19 06:59, 35F

11/19 06:59, 2年前 , 36F
我不知道這樣做合不合適就是了
11/19 06:59, 36F

11/19 07:00, 2年前 , 37F
不過我覺得你的排除在今天的例子不太重要?
11/19 07:00, 37F

11/19 07:00, 2年前 , 38F
因為選民人數遠遠比民調樣本多
11/19 07:00, 38F
母體=全體選民 民調=樣本 在沒選舉之前我們做民調得到得結果呢 可以有N種對應的母體 換句話說有N種可能的選民結構 可以讓我們做出今天的民調 但是呢 我能不能猜真的選舉的時候支持率會怎樣呢 可以 你會用你做的民調結果估計 但是呢 因為你的樣本數遠小於母體 所以真實的選舉結果跟你的民調結果大概不會一樣 差距有多大呢? 你做1000份民調 真實結果跟民調結果差距在3%以內的 有95%的可能性 差距在2%以內的 有80%的可能性 有沒有沒有誤差的 有可能性很接近0 OK 讓我們再回到相關性跟常態分佈的討論 你如果問說 今天做了一個民調 我能不能用常態分佈那一套來處理 我只能說我持保留態度 但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套 1.0跟1不是常態分佈 所以假設只可能是一種近似 2.常態分佈是對母體的一種假設 當你要排除某種可能性的時候 基本上是盡可能做越少假設越好 畢竟沒有人有好的理由說服別人 為甚麼真實母體應該是常態分佈 有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈 為甚麼我是持保留態不而不是否定 是因為統計這個東西基本上還是共識決 你說你要95%信心 我可不可以說要30%就好了 可以啊 你也可以說1%信心那你誤差就不見了 或者說要99.99%信心 那你誤差可能就大到快100% 95%這個共識基本上是因為好用 但甚麼是好用 怎樣定義好用? 這都是人決定的 所以你要用常態分佈行不行 也許吧 如果你覺得很好用的話 我只能說 一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈 我想再補充一點 雖然這裡應該沒有人會看 為甚麼常態分佈這麼棒呢? 這是因為大部分時候我們定義"距離"的時候都是用L2 norm 舉例來說 X = {x1,x2,...} Y = {y1,y2,...} 如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm 基本上差距 誤差這種東西就是距離 如果我們是這樣定義距離的 那你要找到一個"正確"的分布 使得該分布跟所有可能分布的距離最小的話 那這個分布就是常態分佈 如果距離不再是L2 norm了 那這個分布就不會再是常態分佈

11/19 07:28, 2年前 , 39F
11/19 07:28, 39F

11/19 07:35, 2年前 , 40F
已經上了一天的統計學了
11/19 07:35, 40F

11/19 07:35, 2年前 , 41F
懂你的意思了 謝謝
11/19 07:35, 41F

11/19 07:38, 2年前 , 42F
但我沒有假設是常態分佈吧?
11/19 07:38, 42F

11/19 07:38, 2年前 , 43F
data當然不是常態分佈
11/19 07:38, 43F

11/19 07:39, 2年前 , 44F
但你抽出來的樣本參數 與平行世界比 會是
11/19 07:39, 44F

11/19 07:39, 2年前 , 45F
比方說你抽出來這次mean=0.42
11/19 07:39, 45F

11/19 07:40, 2年前 , 46F
假定母體mean=0.5 (最大化區間)
11/19 07:40, 46F

11/19 07:40, 2年前 , 47F
可以下去估如果你抽了很多次
11/19 07:40, 47F

11/19 07:40, 2年前 , 48F
這些mean的std 是這樣嗎?
11/19 07:40, 48F
抱歉我不確定你有沒有再講常態分佈的事 主要是因為我回的那篇文在講的是常態分佈的統計 所以我話癆就多講了一點 針對你這個問題 估計總是可以的 但估計會估錯 統計誤差範圍處理的問題是給定信心水準我不要我估錯 我要確定可以排除是誤差導致或是說不能排除誤差影響 換言之 估計做的是是說"很有可能" 但不能告訴你多有可能 統計誤差要說的是"哪些不可能" 事情是這樣子的 只做民調我們"可能"活在各種各式各樣的平行宇宙中 但歸根究柢 我們只活在其中一個 舉例來說 我們抽到111 母體有可能是111111 也有可能是111110 你問我有沒有可能知道我再做一次民調會出現甚麼狀況呢? 如果我要有100%信心 答案是不能 如果我有5%信心可不可以 可以 因為我有5%信心真實母體一定是111111 所以抽到0的機會就是0 但5%信心夠不夠? 別人可能質疑你說那111110你怎麼不說? 所以問題基本上就是這樣 如果你認為母體是某個樣子 理論上你應該只能有5%信心 如果你要有95%信心那你必須容許某些母體而不是一個母體 並且最後你知道你只活在其中一個 但即便是這樣你還是能排除某些狀況 因為在這些母體中還是有某些狀況是不可能發生的 只要這些可能性不能排除 基本上就是在誤差範圍內

11/19 07:41, 2年前 , 49F
也就說 你會有mean1 mean2 mean3..mean1000
11/19 07:41, 49F

11/19 07:41, 2年前 , 50F
是需要多懂?叫你讓就讓,不然自己出錢
11/19 07:41, 50F

11/19 07:42, 2年前 , 51F
考慮這些mean的分布,會是常態分佈?
11/19 07:42, 51F

11/19 07:42, 2年前 , 52F
一早起來上統計,傷痛都回來了
11/19 07:42, 52F

11/19 07:43, 2年前 , 53F
統計學答案不重要 國民黨就是要正的
11/19 07:43, 53F

11/19 07:48, 2年前 , 54F
推~~可以跟我說一下,民調結果就以你們專
11/19 07:48, 54F

11/19 07:48, 2年前 , 55F
家來看,猴猴是立論是正確的嗎?柯翻桌有
11/19 07:48, 55F

11/19 07:48, 2年前 , 56F
理嗎? 若你是柯,以當初協議來看這結果,
11/19 07:48, 56F

11/19 07:48, 2年前 , 57F
你也會翻桌嗎?謝謝。
11/19 07:48, 57F
不要說以你們專家來看 我不是研究統計學的 我只是常常會要用 如果你說以我看是怎樣 我只能說 https://imgur.com/Pmt6KOh
這張圖的情況出現的時候是不能排除"社會科學普遍使用的"統計誤差的 但我再講一次 統計這種東西基本上是共識決 你常常要放一些假設 假設是人放的 你可以堅持不用別人常用的假設 我想沒有人可以反對 ※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 08:01:44

11/19 07:58, 2年前 , 58F
謝謝您的解釋,但我仍聽不懂
11/19 07:58, 58F

11/19 08:01, 2年前 , 59F
至於我會不會翻桌
11/19 08:01, 59F

11/19 08:02, 2年前 , 60F
如果是我 我根本不會簽那張
11/19 08:02, 60F

11/19 08:02, 2年前 , 61F
因為規則設定本來就沒什麼勝算
11/19 08:02, 61F

11/19 08:03, 2年前 , 62F
舉個極端例子 每個民調只採取一個人
11/19 08:03, 62F

11/19 08:03, 2年前 , 63F
看N份記點
11/19 08:03, 63F

11/19 08:03, 2年前 , 64F
統計誤差內算A贏
11/19 08:03, 64F

11/19 08:04, 2年前 , 65F
那不管你用哪種定義A都會贏
11/19 08:04, 65F

11/19 08:04, 2年前 , 66F
理論還是跟現實,有一段差距,所以誤差
11/19 08:04, 66F

11/19 08:04, 2年前 , 67F
根本不用管實際支持率幾%
11/19 08:04, 67F

11/19 08:04, 2年前 , 68F
就是統計的美
11/19 08:04, 68F

11/19 08:05, 2年前 , 69F
還有啦 常常是這樣
11/19 08:05, 69F

11/19 08:06, 2年前 , 70F
你可以不用多數人用的定義
11/19 08:06, 70F

11/19 08:06, 2年前 , 71F
總是可以 你絕對可以重新定義3
11/19 08:06, 71F

11/19 08:06, 2年前 , 72F
或者是把2跟3互換
11/19 08:06, 72F

11/19 08:07, 2年前 , 73F
變成1+1=3; 3+1=2
11/19 08:07, 73F

11/19 08:07, 2年前 , 74F
這是定義問題 基本上愛怎麼訂怎麼訂
11/19 08:07, 74F

11/19 08:07, 2年前 , 75F
但人跟人互動通常還是用常用的
11/19 08:07, 75F

11/19 08:08, 2年前 , 76F
除非現在出現一個以前人沒有意識到的問題
11/19 08:08, 76F

11/19 08:08, 2年前 , 77F
讓你主張換一個定義更好用
11/19 08:08, 77F

11/19 08:25, 2年前 , 78F
吵一個晚上 統計上都沒有共識阿 有共識的
11/19 08:25, 78F

11/19 08:26, 2年前 , 79F
只有柯就是碾壓侯 之前不敢比 現在比下去
11/19 08:26, 79F

11/19 08:26, 2年前 , 80F
褲子都沒了
11/19 08:26, 80F

11/19 08:26, 2年前 , 81F
這不是人跟人互動問題也不是什麼常用問題
11/19 08:26, 81F

11/19 08:26, 2年前 , 82F
完全是解釋問題 所以那麼簡單草率的簽
11/19 08:26, 82F

11/19 08:26, 2年前 , 83F
名不用負責?
11/19 08:26, 83F

11/19 08:27, 2年前 , 84F
在當下你沒有發現問題的能力那就是你的
11/19 08:27, 84F

11/19 08:29, 2年前 , 85F
問題
11/19 08:29, 85F

11/19 09:18, 2年前 , 86F
11/19 09:18, 86F

11/19 09:19, 2年前 , 87F
上完之後每個人都值1.5個博士嗎
11/19 09:19, 87F

11/19 09:41, 2年前 , 88F
意思是母體未知時 誤差值可以隨人定義?
11/19 09:41, 88F
誤差越小信心越低 如果你可以接受0%信心的話確實誤差要多大都可以 但你設定了信心水準 根據你的樣本數 誤差就是確定的 ※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 09:45:36
文章代碼(AID): #1bMIwiIp (Gossiping)
文章代碼(AID): #1bMIwiIp (Gossiping)