[問題] 民進黨初選民調5家民調結果是否太接近(或分散)之探討?

看板Statistics作者 (ndd2)時間4年前 (2019/06/17 02:35), 4年前編輯推噓1(1056)
留言57則, 5人參與, 4年前最新討論串1/1
5家民調結果(蔡英文支持度)是否太接近或分散? 我想了好久,如果寫錯請指正。 一、檢定問題:民進黨初選民調蔡英文之支持度數據36.5721%、36.1190%、35.6532%、 34.5323%、35.5072%是否太過接近或分散? 二、我的分析結論:本次5份民調結果並未顯示太接近或分散之現象。 三、論證:我不是用到誤差範圍(margin of error)及信心水準95%之「區間估計」理論講 法,那種說法我覺得行不通。我也不是用到典型的卡方 Goodness-of-Fit Test或變異數分析F-test,而是用到「常態分布抽樣樣本變異數呈卡方 分布」直接在論述, 用的心虛,但又覺得不無道理。 說明文件pdf在:https://bit.ly/2KUOhlm ,數據計算google spreadsheet在 https://bit.ly/2wWHu2E 。 Remark以下番外(不負責)分析:民調結果不代表真實的支持度,從「機構效應」推測,綠 營民調在綠營支持者認真作答,而藍營支持者「亂數」作答之情境下,會使兩位綠營候選 人的支持度均得到提升,尤其以藍營支持者認為較弱(較好打)對手之支持度提升更多。 2019.6.17 remark: 我想了想,我的檢定推論的描述是正確的,test statistic用詞也 正確。 2019.6.18 pm10 remark: 謝謝bm大的質問,讓我再多加思考,的確我寫的很不完備, (這種case非教課書上講解"假設檢定"的典型,如chi-square test , f test 或母體平均或變異數的Hypothesis Testing, 這個例子也的確可以不用Hypothesis Testing來說, 只要籠統的說,此民調結果之集中度而言,發生機率不是異常的低就好) 以下我再補充我的胡言亂語,Ho的確就有點「麻煩」, 容我改做一點比較保守的論述(後面看到自由度變成5), (以下為推論統計命題開始) 對支持率為p=35.6768%的母體,進行5家民調(各自n=3000) 抽樣, Ho:本次結果的分布情形不會太過集中(樣本變異數不會太小)。 Ha:分布情形太集中(樣本變異數太小)。 (1)[先認定五家是iid~Normal] 依中央極限定理知,5家民調可認定為Normal(p=35.6768%,sigma^2) ,其中sigma^2=p*(1-p)/3000, (2) [定義檢定統計量T] (以下混用一些excel 語法) 假設5筆資料存於A1:A5, 令Test Statistics T =( 5/sigma^2)*VARP(A1:A5), 其中VARP是excel中的母體變異數函式(是除n的版本,不是除(n-1)的版本), 由統計定理知,T為自由度df=5之卡方分配。 由T(x)的本質為變異數知:T(x)越小,x則密集度高,T(x)越大則x分散。 (3) [計算本次民調T值] 本次民調結果 T= 3.054199085 以自由度5之卡方分布計算 p-Value= 0.308370 未達alpha=0.05顯著性。 (4) 結論:此結果沒有足夠的證據來否定Ho, 所以不能說此次結果太密集。 以下是「雙尾」版: Ho:本次結果以密集性而言,結果無問題(樣本變異數不會太小或太大)。 Ha:本次結果密集性不正常(樣本變異數太小或太大) 本次民調結果 T= 3.054199085 計算p-Value= 0.308370 p-Value非小於0.025亦未大於0.975 未達alpha=0.05顯著性 結論:此結果沒有足夠的證據來否定Ho, 所以民調結果以密集度而言無問題。 至於為什麼我不用自由度4,因為我不知道怎麼講清楚那種p 沒定死在35.6768% 下的Ho怎麼說才好。 :) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.194.197.75 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1560710109.A.454.html

06/17 02:51, 4年前 , 1F
分析這個要做什麼?
06/17 02:51, 1F
※ 編輯: ndd2 (123.194.197.75 臺灣), 06/17/2019 02:58:08

06/17 03:05, 4年前 , 2F
統計分析啊,看立論有沒有道理。
06/17 03:05, 2F
※ 編輯: ndd2 (123.194.197.75 臺灣), 06/17/2019 03:06:30

06/17 08:07, 4年前 , 3F
計算結果是, 有45%的機率會達到此密集程度
06/17 08:07, 3F

06/17 08:19, 4年前 , 4F
所以也沒有多密集,中等而已
06/17 08:19, 4F

06/17 11:27, 4年前 , 5F
即使自由度為5,仍有30.8%機率會達到此密集度以上
06/17 11:27, 5F
※ 編輯: ndd2 (123.194.197.75 臺灣), 06/17/2019 15:15:12

06/17 15:53, 4年前 , 6F
呃,我是想問立這個論做什麼?你是在回上一篇的文嗎?
06/17 15:53, 6F

06/17 16:29, 4年前 , 7F
就是用統計理論來分析這次民調結果在密集度上合不合理
06/17 16:29, 7F

06/17 16:31, 4年前 , 8F
自己未必有把握,就讓眾人也協助檢視我的推論有沒有錯。
06/17 16:31, 8F

06/17 16:32, 4年前 , 9F
你的問題我才看不懂,你是要問我,做推論有什麼政治目的嗎?
06/17 16:32, 9F

06/17 16:36, 4年前 , 10F
沒有,目的就是以統計學為基礎說科學真理。
06/17 16:36, 10F

06/17 16:38, 4年前 , 11F
另外,有一種情況就是,如果此結果發生的機率非常低,那就
06/17 16:38, 11F

06/17 16:41, 4年前 , 12F
有點值得再看看。(當然一種情況是false positive)
06/17 16:41, 12F

06/17 16:45, 4年前 , 13F
也就是Type I error
06/17 16:45, 13F

06/17 18:28, 4年前 , 14F
抱歉我不是太熟抽樣調查領域,分析5家民調是不是太接近
06/17 18:28, 14F

06/17 18:28, 4年前 , 15F
是不是可能涉嫌造假是一個常問的問題?
06/17 18:28, 15F

06/17 19:02, 4年前 , 16F
是啊,這次就是依直覺會覺得做出來的5個數字很接近。但就是
06/17 19:02, 16F

06/17 19:07, 4年前 , 17F
需要有「多少」是太接近的學理
06/17 19:07, 17F

06/17 19:09, 4年前 , 18F
但,一般民調不會做5份,所以也從來沒有這種情境給人質疑。
06/17 19:09, 18F

06/17 20:12, 4年前 , 19F
同樣的執行方法再加上3000個樣本結果當然會很接近
06/17 20:12, 19F

06/17 20:19, 4年前 , 20F
這篇要分析的是是否太過接近,假如做出來是35.5 35.51 35.49
06/17 20:19, 20F

06/17 20:21, 4年前 , 21F
35.51 35.49,太過接近的確不合理的,本篇就是做量化分析
06/17 20:21, 21F

06/18 05:49, 4年前 , 22F
這個有什麼好討論的,CTL把standard error算一下就結案了
06/18 05:49, 22F

06/18 05:49, 4年前 , 23F
你要做檢定也把null hypothesis跟alternative hypothesis講
06/18 05:49, 23F

06/18 05:50, 4年前 , 24F
清楚, 否則跟沒學過統計亂扯一通的有什麼差別
06/18 05:50, 24F

06/18 05:51, 4年前 , 25F
柯講F-test是胡扯的,起手式就錯了,沒有討論價值
06/18 05:51, 25F
※ 編輯: ndd2 (123.194.197.75 臺灣), 06/18/2019 22:19:57

06/18 22:28, 4年前 , 26F
補述在本文最下方。
06/18 22:28, 26F

06/19 06:01, 4年前 , 27F
先理解一下什麼是null hypothesis跟alternative hypothesis
06/19 06:01, 27F

06/19 06:02, 4年前 , 28F
你在test什麼paramter,為什麼這個parameter可以反映民調是
06/19 06:02, 28F

06/19 06:02, 4年前 , 29F
不是有問題..跟柯一樣,起手式就錯了
06/19 06:02, 29F

06/19 19:30, 4年前 , 30F
嗯,我知道我寫的東西和書上寫的典型都不同
06/19 19:30, 30F

06/19 19:32, 4年前 , 31F
單純就民調一出來,有人馬上發表意見說:
06/19 19:32, 31F

06/19 19:33, 4年前 , 32F
這次結果太接近。
06/19 19:33, 32F

06/19 19:34, 4年前 , 33F
想看看有沒有"檢定"可以用?
06/19 19:34, 33F

06/19 19:35, 4年前 , 34F
我相信我寫變異數成卡方分布應該不會錯
06/19 19:35, 34F

06/19 19:35, 4年前 , 35F
"呈"
06/19 19:35, 35F

06/19 19:41, 4年前 , 36F
直覺用變異數分布來想出現的合理性應該也沒錯
06/19 19:41, 36F

06/19 19:50, 4年前 , 37F
不知道能否寫成符合數學"假設檢定"的型式?
06/19 19:50, 37F

06/19 19:52, 4年前 , 38F
或是根本就不宜? 而只要說,比此次還密集的機率是30.8%就好
06/19 19:52, 38F

06/19 23:13, 4年前 , 39F
5個data points做檢定只是在唬弄
06/19 23:13, 39F

06/19 23:20, 4年前 , 40F
By CTL,SE最大值不會超過1%,數字不接近才有鬼..
06/19 23:20, 40F

06/19 23:20, 4年前 , 41F
批的人連邏輯都不對
06/19 23:20, 41F

06/19 23:48, 4年前 , 42F
也不是說5個點就沒有檢定吧,例如t test df=5也在檢定
06/19 23:48, 42F

06/20 01:59, 4年前 , 43F
你算過power嗎
06/20 01:59, 43F

06/20 02:52, 4年前 , 44F
還有,你的null跟alternative hypothesis還是講不清楚
06/20 02:52, 44F

06/20 02:53, 4年前 , 45F
講不清就不要亂套hypotheiss testing framework
06/20 02:53, 45F

06/20 03:24, 4年前 , 46F
因為這樣做出來的結果(不管顯不顯著)沒意義
06/20 03:24, 46F

06/20 21:59, 4年前 , 47F
嗯,謝謝
06/20 21:59, 47F

06/20 22:05, 4年前 , 48F
我再想想他們的意義( 不過暫時有難度, 我不是專門念統計的)
06/20 22:05, 48F

06/28 17:45, 4年前 , 49F
如果5個民調的抽樣群體是一樣的, 並假設樣本是完全隨機的,
06/28 17:45, 49F

06/28 17:48, 4年前 , 50F
每次調查樣本都是 n=3000, 那麼5個結果的分散程度並沒有可
06/28 17:48, 50F

06/28 17:50, 4年前 , 51F
質疑的證據. 這麼說的理由是它們之間最大差距略超過2倍標準
06/28 17:50, 51F

06/28 17:52, 4年前 , 52F
誤, 雖然好像小了些, 但只有5個數據, 不無可恣.
06/28 17:52, 52F

06/28 17:55, 4年前 , 53F
數據相對於其理論分散度(0例如以標準差/誤衡景量)是否過分
06/28 17:55, 53F

06/28 17:58, 4年前 , 54F
密集而不合理, 以假說檢定來做的困難是虛無和對立假說不好
06/28 17:58, 54F

06/28 18:02, 4年前 , 55F
定. 就算用 H0: |群體差異|>Δ 的形式也不合理, 因為理論上
06/28 18:02, 55F

06/28 18:03, 4年前 , 56F
它們來自同一群體, 所以理論差異是 0.
06/28 18:03, 56F

06/28 18:04, 4年前 , 57F
H0: |群體差異|≧Δ
06/28 18:04, 57F
文章代碼(AID): #1T1elTHK (Statistics)