Re: [討論] 認真問民調的一個統計問題

看板HatePolitics作者 (莎莉油奶凍)時間5月前 (2023/11/23 07:31), 編輯推噓6(6019)
留言25則, 4人參與, 5月前最新討論串3/3 (看更多)
※ 引述《kh749 (ReturnTo)》之銘言: : ※ 引述《Mervivian ()》之銘言: : : 請問如果是區間估計, : : 假設統計誤差是3%, : : 那麼做出來的民調看起來是40%的, : : 其實真實值是37%到43%之間都有可能對吧? : : (95%信心水平下) : : 那問題是想問說, : : 真實值是從37%到43%之間任何數的可能性都一樣嗎? : : 還是說,真實值離40%越近的可能性就越大, : : 而真實值是37%或是43%雖然也有可能, : : 但是可能性會下降呢? : : 謝謝! 這就是讀書沒有讀通的典形,連自己在說什麼都不是很清楚,更遑論解釋給別人聽。 : 初等統計(高中統計)會告訴你這段: : 假設 : "所有選民都已經心有定見, : 沒有心猿意馬臨時改變的空間" : 例如, 10000個內政部登記符合投票資格 : 的選民當中有3800個支持. 那真實的p就是38%. : 這是一個"未知的固定數". : 那麼p=38%的機率是1, : 其他37.1%,41.2%那些其他所有數字的機率都是0 有讀書 : 很明顯,以上這是一個反人類認知的說法 沒讀通。 : 大家心裡可能都不贊同以上說法, 你解釋一下,大家心裡就可以接受了。 或者你沒有能力,我就替你解釋。 這個P=1是什麼意思? 這是代表必然是這樣。 以上一次總統選舉為例,蔡英文得票就是817萬, 蔡英文得票817萬的機率就是1,P=1, 其他得票816萬,818萬,552萬的機率,全部都是0。 有很難理解嗎?反什麼人類?別因為自己不懂就拉低全人類的水準好不好? : 不過參加大部的考試請照上面回答. : ------------------------------ : 雖然37.1和41.2的機率都是0, : 一個有用的訊息就是:37.1和41.2的發生機率是一樣的 : 不會因為41.2%比較靠近40%, 它發生的機率就比37.1%還來的高. : 當然, 這又是另一個反人類認知的結論. 錯。 別人問你,37.1和41.2的%,是他看到某民調是40%, 所以想問最後實際某候選人的得票率。 這能和上面的提到的,"未知的固定數"對於某個數字 (816萬,818萬,552萬,或者P=1的817萬)的機率一樣嗎? 根本兩種東西,別牛頭不對馬嘴的,將兩樣東西扯在一起。 正確的回答是: 如果該民調可信,沒有做手腳, 那該民調是40%的話, 因為41.2%比較靠近40%,根據常態分佈,它發生的機率就是比37.1%還來的高。 這裡簡單的解釋一下,民調的%究竟和那"未知的固定數"有什麼關係。 事情是這樣的,雖然蔡英文的得票就是817萬,這是必然的,P=1, 得票率就817/1430,57%多一點,但那是選了之後的現在, 2023年才知道的。 如果是在2019年,有人要預測(預測,這2隻字很重要)選舉結果, 你就不能叫他等到2023年,說到時我們就知道那"未知的固定數"了, 可以十分準確的,必然的,P=1的,知道蔡英文有817萬票, 因為那顯然是沒有用的。 那要怎麼辦呢? 除了占卜、問卦、坐時光機之外,想預測未來,還有一種方法, 那就是做民調。 雖然2020年才選舉,但到時要投票的人,現在2019年不也是全都在這裡嗎? 那問一問他們就好了。 好吧,到時有1931萬人有投票權,那就去問…… 呃。 實務上絕對不可能,只比坐時光機簡單一點。 於是,就只好問少一點的人。 假設2019年,你問了1000個人,550人說要投蔡英文,佔55%, 那到時選舉蔡的得票率多少? 57%多一點,蔡英文有817萬票,是必然的,P=1的。 又假設2019年,你問了1000個人,560人說要投蔡英文,佔56%, 那到時選舉蔡的得票率多少? 57%多一點,蔡英文有817萬票,是必然的,P=1的。 沒有其他可能。 其他得票816萬,818萬,552萬的機率,全部都是0。 那57%多一點,就是那在2019尚「未知的」一個「固定數」。 做民調就是想要「預測」它。 於是,那麼,問完1000個人,得來的55%、或者56%,又有什麼用呢? 首先要知道,這55%或者56%幾乎不可能準確的命中最後那固定數, 這是「連續區間」和「離散」的概念,是要自吹自擂自己有學統計時的基礎知識。 不嚴謹的解釋是,因為那是57%多一點,不是57%, 那個多一點是幾乎不可能命中的。 所以,要用「區間」來為那55%、或者56%,加闊猜度範圍, 通常是後面加個正負幾%。 然後這個加正負幾%,要加幾多才好呢? 其實沒規定。 但約定俗成,都是用95%信心區間。 信心區間不難,搞清楚就不高深,是很入門的,自吹自擂時要注意。 例如95%信心區間,就是有95%的信心,最後的那個「未知的固定數」, 會在猜度的區間內。 至於加正負多少%,才會令做民調的有信心,覺得最後「未知的固定數」會在區間內, 就倒是有點深,以下不細說。 結論是, : : 假設統計誤差是3%, : : 那麼做出來的民調看起來是40%的, : : 其實真實值是37%到43%之間都有可能對吧? 連以1%和99%做中心的正負0.幾%的區間都有可能 嘻嘻,這就是民調。 : : (95%信心水平下) 對啊,在37%到43%之間,只保證了95%的信心,其他區間總共可以分到剩下的5%。 : : 那問題是想問說, : : 真實值是從37%到43%之間任何數的可能性都一樣嗎? 不一樣。 : : 還是說,真實值離40%越近的可能性就越大, 以這份民調的猜測來說,是。 但真實值永遠都是那個「未知的固定數」,做民調充其量只是去猜, 嚴謹的說民調的%其實和真實值沒什麼關係。 : : 而真實值是37%或是43%雖然也有可能, 做民調只是猜,本質上和占卜問卦差不多,就你民調有根據科學方法, 預測起來理論上會稍微準一點。 所以真實值絕對有可能在1%或者99%,至於民調說40%什麼的, 嘻嘻,就猜不中囉,啾咪~ : : 但是可能性會下降呢? 我知道肯定有人要抬槓,說因為37.1和41.2的兩個點,其機率都幾乎等於0, 所以自己沒答錯。 但可惜,就算不看37.1和41.2為中心的附近「區間」41.2確實比37.1機率高, 單比較37.1和41.2,兩個幾乎等於0的點,也是可以的,41.2就是比37.1機率高。 : 不過想一想, 確實p只有一個, 就是38%. : ------------------------------ : 後來有了貝氏統計, 但是貝氏統計更反人類認知, 拜託多讀書吧,這段是完全沒有讀書。 : 貝氏統計認為37~43的每個數字的機率都是0, 連同38在內 這不是貝氏統計的認為,這是「離散」和「連續」的問題。 不嚴謀的說法,如果充許37~43的每個數字都有為正的機率, 當然每個個別的數字的機率都是0,你個別數字在數線上就是一點,那自然只能是0。 像40,真的會那麼準中正40嗎?40.1呢?40.01呢?40.001呢? 有這麼多數字去分,分完當然是無限接近0,可以直接寫做0了。 : 不過貝氏統計定義了區間的概念, 錯。有好好上課嗎?還是沒讀過大學? 下面不逐一挑錯了。 : 你抽樣出來的1068個樣本是40% : 那麼真實的p : 落在40~43的機率是47.5% : 落在37~40的機率是47.5% : 落在37~43的機率是95% : 總之符合以40%為中心的常態分佈. : 不過以上是建立在一個中性的假設下. : ---------------------------- : 但是貝氏統計不一定是中性假設, : 例如有些學者認為這個候選人先天上看起來就不怎麼行, : 雖然抽出來的1068個樣本是呈現40%支持率, : 但是先天要扣幾分 : 所以最後可能得到一個以35%為中心的常態分佈 : 但是這種情況, 需要有一個很懂選舉的人, : 來決定先天這個候選人要扣幾分. : -------------------------------------- : 最後這項比較符合人類的認知, : 也就是這個選舉專家能看出這個候選人的後勁是否夠強 : 配合民調的資料, 來估計這個候選人將來在投票的那天能得到多少選票. : 可能是以35%為中心的常態分佈, 也可能是一個以45%為中心的常態分佈. : 最後, 貝氏統計認為, 樣本數夠大的情況下, 選舉專家的主觀認知會被沖淡, : 如果蒐集了10000個樣本, 支持率還是40%, : 那麼貝氏統計會就會認為這是一個以40%為中心的常態分佈. 連基礎也錯,這想要做統計相關的工作一定是沒有位置。 難怪有這麼多高學歷的,卻總對社會不滿,就例如某族群…… -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 222.166.97.10 (香港) ※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700695878.A.BC3.html

11/23 07:32, 5月前 , 1F
這篇正解 一堆人不知道信賴區間跟總調查數
11/23 07:32, 1F

11/23 07:33, 5月前 , 2F
會影響後面那那個%數比例....
11/23 07:33, 2F

11/23 08:38, 5月前 , 3F
我看完你這篇,我就明白為什麼你這麼聰明還
11/23 08:38, 3F

11/23 08:38, 5月前 , 4F
找不到工作了。
11/23 08:38, 4F

11/23 08:50, 5月前 , 5F
你引出的是貝氏統計學和頻率統計學的爭議。
11/23 08:50, 5F

11/23 08:50, 5月前 , 6F
這沒有誰對誰錯的,就看哪種比較實用而已。
11/23 08:50, 6F

11/23 08:50, 5月前 , 7F
很明顯你是一個貝氏的信仰者。但是頻率統計
11/23 08:50, 7F

11/23 08:50, 5月前 , 8F
學不是你一個人就能完全否定掉的。
11/23 08:50, 8F

11/23 08:54, 5月前 , 9F
順帶一提,你同意民調支持率是固定已知數,
11/23 08:54, 9F

11/23 08:54, 5月前 , 10F
你又用貝氏的想法來解釋你所謂的機率。在我
11/23 08:54, 10F

11/23 08:54, 5月前 , 11F
看來你已經錯亂了。該好好複習頻率統計學的
11/23 08:54, 11F

11/23 08:54, 5月前 , 12F
內容。
11/23 08:54, 12F

11/23 09:06, 5月前 , 13F
現在的研究所滿好考的,如果考不上台灣的統
11/23 09:06, 13F

11/23 09:06, 5月前 , 14F
計所,申請一個國外水碩也不難的。或是台灣
11/23 09:06, 14F

11/23 09:06, 5月前 , 15F
的很多研究所都很缺博士,有些都要停招了。
11/23 09:06, 15F

11/23 09:06, 5月前 , 16F
趕緊去吧。
11/23 09:06, 16F

11/23 10:24, 5月前 , 17F
不要丟臉了好嗎 kh749
11/23 10:24, 17F

11/23 11:28, 5月前 , 18F
樓上,科學就是科學,不是人比較多就是真理
11/23 11:28, 18F

11/23 11:28, 5月前 , 19F
11/23 11:28, 19F

11/23 11:42, 5月前 , 20F
沒看懂為什麼p(41.2)>p(37). 是假設40
11/23 11:42, 20F

11/23 11:43, 5月前 , 21F
是真正的民調數字嗎?40本身是sample不?
11/23 11:43, 21F

11/23 20:27, 5月前 , 22F
kh749連P的定義都不懂 不懂閉嘴也沒人會
11/23 20:27, 22F

11/23 20:27, 5月前 , 23F
笑你
11/23 20:27, 23F

11/23 20:36, 5月前 , 24F
統計是統計,討論統計的時候請不要把政治帶
11/23 20:36, 24F

11/23 20:36, 5月前 , 25F
進來。
11/23 20:36, 25F
文章代碼(AID): #1bNez6l3 (HatePolitics)
文章代碼(AID): #1bNez6l3 (HatePolitics)