[討論] 民調統計之亂---最終章
小弟看到版上很多人對民調統計很有興趣,
剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下.
如果有錯還請不要見怪.
先講結論:
1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1,
2. 國民黨版本
如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣
那麼民調之中柯侯只要領先侯柯1.34%,
統計上就代表柯侯顯著勝過侯柯
3. 在民眾黨版本中
如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9,
這個r值每份民調都不一樣
那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%,
統計上就代表柯侯顯著勝過侯柯.
這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前,
答媒體問時有提到
從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好,
不過這未必代表他們贏了. 仍要視每份民調的r值而定.
以下請看詳細解說:
--------------------------------------------------
p是支持率, n是樣本數
var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96))
如果只是粗略估計,
一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多).
當n=1068時, 根號(var(p))*1.96 = 3%
比較兩位候選人支持率p1,p2
如果選用p1-p2這個值來做決策,
var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2))
r是大家高中都學過的相關係數-1<r<1
如果粗估p1=p2=p, 那麼var(p1)=var(p2)
var(p1-p2) = 2*var(p) - 2*r*var(p)
(1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0
(1.1) 當r=-1時,
適用情況: 在一對一的選舉中, 一人沒有第三種選項
例如在新加坡, 投票是全民義務, 不能不投票,
可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇
也就是p1和p2完全負相關, r=-1
var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6%
也就是李某要勝過黃某6%才算超過誤差範圍.
(1.2) r約為-0.5
因此如果在台灣, (1.1)的假設就不適用
一個人除了國民黨p1和民進黨p2以外,
還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票.
所以台灣選舉的r約等於-0.5, 中度負相關.
var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3%
這也就是不少民調專家,政黨操盤手所說,
一對一選舉要贏5%以上才算是贏!
例如以下這篇報導:
國民黨立委提名/現任者民調贏逾5% 才徵召
https://news.ltn.com.tw/news/politics/paper/863837
(2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯
(2.1)當r=0, 也就是p1與p2二者獨立的時候,
如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然.
那麼p1,p2的相關性可能就很低, r接近0.
例如聯合報的這份問卷: Q7和Q8不會問同一個人.
【Q7及Q8隨機呈現】
7.如果郭台銘最後不參選,藍白整合是柯文哲當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)柯文哲搭配侯友宜[柯侯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答
8.如果郭台銘最後不參選,藍白整合是侯友宜當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)侯友宜搭配柯文哲[侯柯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答
當r約為0時,
var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2%
也就是柯侯要贏過侯柯4.2%才算柯侯贏
有人會問(2.1)和(1.1)有什麼不同?
(2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0)
然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1
這點滿有趣的, 有興趣的讀者可以自行研究.
(2.2) 承(2.1) 0.8<r<1
民調公司也可能設計以下問卷
以下是美麗島十月國政民調的問卷:
[Q15與Q16由電腦隨機排序]
15、請問,如果明年大選只有2組參選,1組是
國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6%
16、請問,如果明年大選只有2組參選,1組是
民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1%
如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯
因此p1和p2是高度正相關, r=0.8以上
如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p)
var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了
當n=1068時, 這個誤差是3*0.65 = 2%左右,
這個含意是:
"如果柯侯和侯柯的正相關性高達0.8,
那麼民調之中柯侯只要領先侯柯2%,
統計上就代表柯侯顯著勝過侯柯"
(2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外.
var(p1-p2) = 2*var(p) - 2*r*var(p) = 0
誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%,
那麼柯侯統計上就顯著勝過侯柯
問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯.
因此, 總言之, r越是接近1, 誤差就越接近0
柯侯需要領先侯柯的%數就越低.
但結果仍需視每份民調不同的r值而定.
備註1. 11/17號民眾黨曾經發布一個消息,
在談判當天晚上六點以前要上傳原始資料,
目的很可能就是要對各家民調的相關性r進行檢查.
備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說
"變異值很高, 讓3%已經很多"之類的話,
黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%"
記者當然聽不懂.
她們就是在說明本文中(r=0.9)的情況.
把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96
根號(0.2*0.5^2/1086)*1.96
算出來剛好是1.34% 正是黃珊珊口中"1.3幾"
我沒有政治立場, 不過以我的統計學專長,
我認為民眾黨還是懂統計的.
參考資料:
1.Mathematical Statistics, Rice 3rd 11.3
2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700591130.A.382.html
→
11/22 02:27,
5月前
, 1F
11/22 02:27, 1F
推
11/22 02:29,
5月前
, 2F
11/22 02:29, 2F
→
11/22 02:30,
5月前
, 3F
11/22 02:30, 3F
推
11/22 02:32,
5月前
, 4F
11/22 02:32, 4F
推
11/22 02:35,
5月前
, 5F
11/22 02:35, 5F
噓
11/22 02:43,
5月前
, 6F
11/22 02:43, 6F
推
11/22 02:52,
5月前
, 7F
11/22 02:52, 7F
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 02:59:39
推
11/22 03:02,
5月前
, 8F
11/22 03:02, 8F
→
11/22 03:02,
5月前
, 9F
11/22 03:02, 9F
→
11/22 03:02,
5月前
, 10F
11/22 03:02, 10F
→
11/22 03:02,
5月前
, 11F
11/22 03:02, 11F
→
11/22 03:04,
5月前
, 12F
11/22 03:04, 12F
→
11/22 03:04,
5月前
, 13F
11/22 03:04, 13F
→
11/22 03:04,
5月前
, 14F
11/22 03:04, 14F
→
11/22 03:04,
5月前
, 15F
11/22 03:04, 15F
→
11/22 03:04,
5月前
, 16F
11/22 03:04, 16F
→
11/22 03:04,
5月前
, 17F
11/22 03:04, 17F
→
11/22 03:11,
5月前
, 18F
11/22 03:11, 18F
→
11/22 03:11,
5月前
, 19F
11/22 03:11, 19F
→
11/22 03:11,
5月前
, 20F
11/22 03:11, 20F
→
11/22 03:11,
5月前
, 21F
11/22 03:11, 21F
→
11/22 03:11,
5月前
, 22F
11/22 03:11, 22F
→
11/22 03:11,
5月前
, 23F
11/22 03:11, 23F
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 03:15:57
→
11/22 03:19,
5月前
, 24F
11/22 03:19, 24F
推
11/22 03:22,
5月前
, 25F
11/22 03:22, 25F
→
11/22 03:22,
5月前
, 26F
11/22 03:22, 26F
推
11/22 03:38,
5月前
, 27F
11/22 03:38, 27F
推
11/22 03:39,
5月前
, 28F
11/22 03:39, 28F
→
11/22 03:40,
5月前
, 29F
11/22 03:40, 29F
→
11/22 03:44,
5月前
, 30F
11/22 03:44, 30F
推
11/22 03:52,
5月前
, 31F
11/22 03:52, 31F
→
11/22 03:52,
5月前
, 32F
11/22 03:52, 32F
→
11/22 03:52,
5月前
, 33F
11/22 03:52, 33F
→
11/22 03:52,
5月前
, 34F
11/22 03:52, 34F
→
11/22 03:52,
5月前
, 35F
11/22 03:52, 35F
→
11/22 03:52,
5月前
, 36F
11/22 03:52, 36F
→
11/22 03:54,
5月前
, 37F
11/22 03:54, 37F
還有 26 則推文
推
11/22 05:11,
5月前
, 64F
11/22 05:11, 64F
→
11/22 05:12,
5月前
, 65F
11/22 05:12, 65F
→
11/22 05:12,
5月前
, 66F
11/22 05:12, 66F
推
11/22 05:18,
5月前
, 67F
11/22 05:18, 67F
→
11/22 05:57,
5月前
, 68F
11/22 05:57, 68F
→
11/22 05:57,
5月前
, 69F
11/22 05:57, 69F
→
11/22 05:57,
5月前
, 70F
11/22 05:57, 70F
推
11/22 06:08,
5月前
, 71F
11/22 06:08, 71F
推
11/22 06:12,
5月前
, 72F
11/22 06:12, 72F
※ 編輯: kh749 (36.224.220.216 臺灣), 11/22/2023 06:32:33
噓
11/22 06:34,
5月前
, 73F
11/22 06:34, 73F
推
11/22 06:40,
5月前
, 74F
11/22 06:40, 74F
推
11/22 06:46,
5月前
, 75F
11/22 06:46, 75F
→
11/22 06:50,
5月前
, 76F
11/22 06:50, 76F
→
11/22 06:50,
5月前
, 77F
11/22 06:50, 77F
→
11/22 06:50,
5月前
, 78F
11/22 06:50, 78F
→
11/22 06:50,
5月前
, 79F
11/22 06:50, 79F
→
11/22 07:08,
5月前
, 80F
11/22 07:08, 80F
→
11/22 07:16,
5月前
, 81F
11/22 07:16, 81F
→
11/22 07:16,
5月前
, 82F
11/22 07:16, 82F
→
11/22 07:16,
5月前
, 83F
11/22 07:16, 83F
推
11/22 07:34,
5月前
, 84F
11/22 07:34, 84F
→
11/22 07:44,
5月前
, 85F
11/22 07:44, 85F
推
11/22 08:12,
5月前
, 86F
11/22 08:12, 86F
→
11/22 08:14,
5月前
, 87F
11/22 08:14, 87F
→
11/22 08:14,
5月前
, 88F
11/22 08:14, 88F
推
11/22 08:16,
5月前
, 89F
11/22 08:16, 89F
→
11/22 08:17,
5月前
, 90F
11/22 08:17, 90F
推
11/22 08:25,
5月前
, 91F
11/22 08:25, 91F
→
11/22 08:25,
5月前
, 92F
11/22 08:25, 92F
→
11/22 08:25,
5月前
, 93F
11/22 08:25, 93F
推
11/22 08:30,
5月前
, 94F
11/22 08:30, 94F
→
11/22 08:30,
5月前
, 95F
11/22 08:30, 95F
→
11/22 08:47,
5月前
, 96F
11/22 08:47, 96F
→
11/22 08:47,
5月前
, 97F
11/22 08:47, 97F
→
11/22 08:51,
5月前
, 98F
11/22 08:51, 98F
→
11/22 08:51,
5月前
, 99F
11/22 08:51, 99F
噓
11/22 09:45,
5月前
, 100F
11/22 09:45, 100F
推
11/22 11:36,
5月前
, 101F
11/22 11:36, 101F
推
11/22 11:51,
5月前
, 102F
11/22 11:51, 102F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 2 篇):
討論
26
102