[討論] 民調統計之亂---最終章

看板HatePolitics作者 (ReturnTo)時間5月前 (2023/11/22 02:25), 5月前編輯推噓26(29370)
留言102則, 34人參與, 5月前最新討論串1/2 (看更多)
小弟看到版上很多人對民調統計很有興趣, 剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下. 如果有錯還請不要見怪. 先講結論: 1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1, 2. 國民黨版本 如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣 那麼民調之中柯侯只要領先侯柯1.34%, 統計上就代表柯侯顯著勝過侯柯 3. 在民眾黨版本中 如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9, 這個r值每份民調都不一樣 那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%, 統計上就代表柯侯顯著勝過侯柯. 這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前, 答媒體問時有提到 從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好, 不過這未必代表他們贏了. 仍要視每份民調的r值而定. 以下請看詳細解說: -------------------------------------------------- p是支持率, n是樣本數 var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96)) 如果只是粗略估計, 一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多). 當n=1068時, 根號(var(p))*1.96 = 3% 比較兩位候選人支持率p1,p2 如果選用p1-p2這個值來做決策, var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2)) r是大家高中都學過的相關係數-1<r<1 如果粗估p1=p2=p, 那麼var(p1)=var(p2) var(p1-p2) = 2*var(p) - 2*r*var(p) (1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0 (1.1) 當r=-1時, 適用情況: 在一對一的選舉中, 一人沒有第三種選項 例如在新加坡, 投票是全民義務, 不能不投票, 可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇 也就是p1和p2完全負相關, r=-1 var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6% 也就是李某要勝過黃某6%才算超過誤差範圍. (1.2) r約為-0.5 因此如果在台灣, (1.1)的假設就不適用 一個人除了國民黨p1和民進黨p2以外, 還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票. 所以台灣選舉的r約等於-0.5, 中度負相關. var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3% 這也就是不少民調專家,政黨操盤手所說, 一對一選舉要贏5%以上才算是贏! 例如以下這篇報導: 國民黨立委提名/現任者民調贏逾5% 才徵召 https://news.ltn.com.tw/news/politics/paper/863837 (2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯 (2.1)當r=0, 也就是p1與p2二者獨立的時候, 如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然. 那麼p1,p2的相關性可能就很低, r接近0. 例如聯合報的這份問卷: Q7和Q8不會問同一個人. 【Q7及Q8隨機呈現】 7.如果郭台銘最後不參選,藍白整合是柯文哲當正, 請問在【隨機提示選項1-2】組合中, 您會支持那一組擔任總統副總統? (1)柯文哲搭配侯友宜[柯侯配] (2)賴清德搭配蕭美琴[賴蕭配] (7)都不支持/支持其他人 (8)未決定、無意見或拒答 8.如果郭台銘最後不參選,藍白整合是侯友宜當正, 請問在【隨機提示選項1-2】組合中, 您會支持那一組擔任總統副總統? (1)侯友宜搭配柯文哲[侯柯配] (2)賴清德搭配蕭美琴[賴蕭配] (7)都不支持/支持其他人 (8)未決定、無意見或拒答 當r約為0時, var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2% 也就是柯侯要贏過侯柯4.2%才算柯侯贏 有人會問(2.1)和(1.1)有什麼不同? (2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0) 然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1 這點滿有趣的, 有興趣的讀者可以自行研究. (2.2) 承(2.1) 0.8<r<1 民調公司也可能設計以下問卷 以下是美麗島十月國政民調的問卷: [Q15與Q16由電腦隨機排序] 15、請問,如果明年大選只有2組參選,1組是 國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」, 另1組是民進黨賴清德和蕭美琴的「賴蕭配」, 您可能會投給哪1組?【關鍵字串由電腦隨機排序】 (1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6% 16、請問,如果明年大選只有2組參選,1組是 民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」, 另1組是民進黨賴清德和蕭美琴的「賴蕭配」, 您可能會投給哪1組?【關鍵字串由電腦隨機排序】 (1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1% 如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯 因此p1和p2是高度正相關, r=0.8以上 如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p) var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了 當n=1068時, 這個誤差是3*0.65 = 2%左右, 這個含意是: "如果柯侯和侯柯的正相關性高達0.8, 那麼民調之中柯侯只要領先侯柯2%, 統計上就代表柯侯顯著勝過侯柯" (2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外. var(p1-p2) = 2*var(p) - 2*r*var(p) = 0 誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%, 那麼柯侯統計上就顯著勝過侯柯 問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯. 因此, 總言之, r越是接近1, 誤差就越接近0 柯侯需要領先侯柯的%數就越低. 但結果仍需視每份民調不同的r值而定. 備註1. 11/17號民眾黨曾經發布一個消息, 在談判當天晚上六點以前要上傳原始資料, 目的很可能就是要對各家民調的相關性r進行檢查. 備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說 "變異值很高, 讓3%已經很多"之類的話, 黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%" 記者當然聽不懂. 她們就是在說明本文中(r=0.9)的情況. 把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96 根號(0.2*0.5^2/1086)*1.96 算出來剛好是1.34% 正是黃珊珊口中"1.3幾" 我沒有政治立場, 不過以我的統計學專長, 我認為民眾黨還是懂統計的. 參考資料: 1.Mathematical Statistics, Rice 3rd 11.3 2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700591130.A.382.html

11/22 02:27, 5月前 , 1F
智菡報氣象的 應該有學統計
11/22 02:27, 1F

11/22 02:29, 5月前 , 2F
蔡正元就講了誤差的誤差很小
11/22 02:29, 2F

11/22 02:30, 5月前 , 3F
這幾個還要點臉的不會硬拗科學
11/22 02:30, 3F

11/22 02:32, 5月前 , 4F
問題是民調有年齡市話手機會加權過
11/22 02:32, 4F

11/22 02:35, 5月前 , 5F
人真好 幫忙治療失眠
11/22 02:35, 5F

11/22 02:43, 5月前 , 6F
跟國民黨合 就是不爽啊
11/22 02:43, 6F

11/22 02:52, 5月前 , 7F
感謝兩個小丑提升國民的統計學
11/22 02:52, 7F
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 02:59:39

11/22 03:02, 5月前 , 8F
這個明明很基礎的統計學啊 怎麼一堆人不
11/22 03:02, 8F

11/22 03:02, 5月前 , 9F
會?
11/22 03:02, 9F

11/22 03:02, 5月前 , 10F
兩題互比 卻一直拿單一題的抽樣誤差來當
11/22 03:02, 10F

11/22 03:02, 5月前 , 11F
誤差
11/22 03:02, 11F

11/22 03:04, 5月前 , 12F
今天如果是 一題「侯 VS 柯 」做1068份
11/22 03:04, 12F

11/22 03:04, 5月前 , 13F
才是正負3%
11/22 03:04, 13F

11/22 03:04, 5月前 , 14F
你今天是
11/22 03:04, 14F

11/22 03:04, 5月前 , 15F
第一題:侯柯 vs 賴蕭
11/22 03:04, 15F

11/22 03:04, 5月前 , 16F
第二題:柯侯 vs 賴蕭
11/22 03:04, 16F

11/22 03:04, 5月前 , 17F
然後 第一題 vs 第二題 那就不會是3%了
11/22 03:04, 17F

11/22 03:11, 5月前 , 18F
在兩題高度相關的狀況下
11/22 03:11, 18F

11/22 03:11, 5月前 , 19F
(第一題選賴蕭的 到了第二題多數還是繼
11/22 03:11, 19F

11/22 03:11, 5月前 , 20F
續賴蕭)
11/22 03:11, 20F

11/22 03:11, 5月前 , 21F
(第一題選候柯的 到了第二題多數繼續柯
11/22 03:11, 21F

11/22 03:11, 5月前 , 22F
侯)
11/22 03:11, 22F

11/22 03:11, 5月前 , 23F
高度正相關 誤差只會縮小
11/22 03:11, 23F
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 03:15:57

11/22 03:19, 5月前 , 24F
樓上, 那要看原始問卷而定,你看聯合報的r=0
11/22 03:19, 24F

11/22 03:22, 5月前 , 25F
用相關性下去 會計博士會跟你說心中有
11/22 03:22, 25F

11/22 03:22, 5月前 , 26F
大我就夠了
11/22 03:22, 26F

11/22 03:38, 5月前 , 27F
嘖嘖嘖
11/22 03:38, 27F

11/22 03:39, 5月前 , 28F
問題是協議寫那3位專家判斷啊
11/22 03:39, 28F

11/22 03:40, 5月前 , 29F

11/22 03:44, 5月前 , 30F
樓上, 法律問題我不懂, 我只懂統計問題.
11/22 03:44, 30F

11/22 03:52, 5月前 , 31F
其實,這幾天民調會不準的最大原因,
11/22 03:52, 31F

11/22 03:52, 5月前 , 32F
就是綠營反串仔的比例根本無從計算
11/22 03:52, 32F

11/22 03:52, 5月前 , 33F
侯柯跟柯侯兩題出現,綠的一定都投賴
11/22 03:52, 33F

11/22 03:52, 5月前 , 34F
?要確定捏,那2020年韓國瑜,跟2018
11/22 03:52, 34F

11/22 03:52, 5月前 , 35F
洪秀柱的黨內初選民調,怎麼選可能出
11/22 03:52, 35F

11/22 03:52, 5月前 , 36F
現成功5成數據,最後陰溝翻車
11/22 03:52, 36F

11/22 03:54, 5月前 , 37F
所以要預估到底要讓幾趴才是安全消除
11/22 03:54, 37F
還有 26 則推文
11/22 05:11, 5月前 , 64F

11/22 05:12, 5月前 , 65F

11/22 05:12, 5月前 , 66F
auAK3c2YzHS
11/22 05:12, 66F

11/22 05:18, 5月前 , 67F

11/22 05:57, 5月前 , 68F
樓上,那篇文章就是我本人寫的,經過yt網友
11/22 05:57, 68F

11/22 05:57, 5月前 , 69F
的指正,今天寫了個進階版,應該也是最終版
11/22 05:57, 69F

11/22 05:57, 5月前 , 70F
的。
11/22 05:57, 70F

11/22 06:08, 5月前 , 71F
推 。你明早去侯場子踢館
11/22 06:08, 71F

11/22 06:12, 5月前 , 72F
政黑綠跟草包侯表示..我們意見一致不認同
11/22 06:12, 72F
※ 編輯: kh749 (36.224.220.216 臺灣), 11/22/2023 06:32:33

11/22 06:34, 5月前 , 73F
講那麼多你覺得三個專家都是傻子==?
11/22 06:34, 73F

11/22 06:40, 5月前 , 74F
11/22 06:40, 74F

11/22 06:46, 5月前 , 75F
正確
11/22 06:46, 75F

11/22 06:50, 5月前 , 76F
如果你說的是對的,那代表柯贏定了不是
11/22 06:50, 76F

11/22 06:50, 5月前 , 77F
嗎?所以是柯不相信科學還是柯根本不想
11/22 06:50, 77F

11/22 06:50, 5月前 , 78F
合?那柯簽了一張期約會選跟龐式騙局的
11/22 06:50, 78F

11/22 06:50, 5月前 , 79F
契約做什麼?
11/22 06:50, 79F

11/22 07:08, 5月前 , 80F
綠粉不懂啦
11/22 07:08, 80F

11/22 07:16, 5月前 , 81F
是不懂,為何明明靠科學就可以順利柯侯
11/22 07:16, 81F

11/22 07:16, 5月前 , 82F
配卻在那邊哭哭情勒不放棄加翻供說自己
11/22 07:16, 82F

11/22 07:16, 5月前 , 83F
簽了張期約賄選的文件,真心不懂求開釋.
11/22 07:16, 83F

11/22 07:34, 5月前 , 84F
推 你是統計系?
11/22 07:34, 84F

11/22 07:44, 5月前 , 85F
你說最終就最終啊?你誰啊?
11/22 07:44, 85F

11/22 08:12, 5月前 , 86F
推 雖然沒學過統計 但是推理過程合理
11/22 08:12, 86F

11/22 08:14, 5月前 , 87F
國民黨老費講得很好 反正極端值最多就是
11/22 08:14, 87F

11/22 08:14, 5月前 , 88F
讓4% 真的算大概2%左右 柯其實還多讓了
11/22 08:14, 88F

11/22 08:16, 5月前 , 89F
感謝解說
11/22 08:16, 89F

11/22 08:17, 5月前 , 90F
8樓講的蠻有道理的
11/22 08:17, 90F

11/22 08:25, 5月前 , 91F
推這篇,朱式統計學本來就在亂算,不同
11/22 08:25, 91F

11/22 08:25, 5月前 , 92F
的問題還誤差一個+3%,一個-3%,擺明就
11/22 08:25, 92F

11/22 08:25, 5月前 , 93F
是想翻桌而已。
11/22 08:25, 93F

11/22 08:30, 5月前 , 94F
好奇統計誤差很小 但每個卻都不一樣
11/22 08:30, 94F

11/22 08:30, 5月前 , 95F
結果 跟現實也不完全相同
11/22 08:30, 95F

11/22 08:47, 5月前 , 96F
如果候柯不等於柯候那正相關值會一
11/22 08:47, 96F

11/22 08:47, 5月前 , 97F
樣嗎
11/22 08:47, 97F

11/22 08:51, 5月前 , 98F
雖然我相信還是3:3 單純論統計的
11/22 08:51, 98F

11/22 08:51, 5月前 , 99F
差異
11/22 08:51, 99F

11/22 09:45, 5月前 , 100F
對你說的都對 快去跟三位專家講
11/22 09:45, 100F

11/22 11:36, 5月前 , 101F
整篇都中文,但是臥沒有立場
11/22 11:36, 101F

11/22 11:51, 5月前 , 102F
專業推
11/22 11:51, 102F
文章代碼(AID): #1bNFOQE2 (HatePolitics)
文章代碼(AID): #1bNFOQE2 (HatePolitics)