Re: [討論] 認真問民調的一個統計問題

看板HatePolitics作者yktktkyure (莎莉油奶凍)時間5月前 (2023/11/23 07:31)推噓6(6推 0噓 19→)

留言25則, 4人參與討論串3/3 (看更多)

※ 引述《kh749 (ReturnTo)》之銘言： : ※ 引述《Mervivian ()》之銘言： : : 請問如果是區間估計， : : 假設統計誤差是3%， : : 那麼做出來的民調看起來是40%的， : : 其實真實值是37%到43%之間都有可能對吧？ : : （95%信心水平下） : : 那問題是想問說， : : 真實值是從37%到43%之間任何數的可能性都一樣嗎？ : : 還是說，真實值離40%越近的可能性就越大， : : 而真實值是37%或是43%雖然也有可能， : : 但是可能性會下降呢？ : : 謝謝！這就是讀書沒有讀通的典形，連自己在說什麼都不是很清楚，更遑論解釋給別人聽。 : 初等統計(高中統計)會告訴你這段: : 假設 : "所有選民都已經心有定見, : 沒有心猿意馬臨時改變的空間" : 例如, 10000個內政部登記符合投票資格 : 的選民當中有3800個支持. 那真實的p就是38%. : 這是一個"未知的固定數". : 那麼p=38%的機率是1, : 其他37.1%,41.2%那些其他所有數字的機率都是0 有讀書 : 很明顯,以上這是一個反人類認知的說法沒讀通。 : 大家心裡可能都不贊同以上說法, 你解釋一下，大家心裡就可以接受了。或者你沒有能力，我就替你解釋。這個Ｐ＝１是什麼意思？這是代表必然是這樣。以上一次總統選舉為例，蔡英文得票就是８１７萬，蔡英文得票８１７萬的機率就是１，Ｐ＝１，其他得票８１６萬，８１８萬，５５２萬的機率，全部都是０。有很難理解嗎？反什麼人類？別因為自己不懂就拉低全人類的水準好不好？ : 不過參加大部的考試請照上面回答. : ------------------------------ : 雖然37.1和41.2的機率都是0, : 一個有用的訊息就是:37.1和41.2的發生機率是一樣的 : 不會因為41.2%比較靠近40%, 它發生的機率就比37.1%還來的高. : 當然, 這又是另一個反人類認知的結論. 錯。別人問你，37.1和41.2的％，是他看到某民調是４０％，所以想問最後實際某候選人的得票率。這能和上面的提到的，"未知的固定數"對於某個數字（８１６萬，８１８萬，５５２萬，或者Ｐ＝１的８１７萬）的機率一樣嗎？根本兩種東西，別牛頭不對馬嘴的，將兩樣東西扯在一起。正確的回答是：如果該民調可信，沒有做手腳，那該民調是４０％的話，因為41.2%比較靠近40%，根據常態分佈，它發生的機率就是比37.1%還來的高。這裡簡單的解釋一下，民調的％究竟和那"未知的固定數"有什麼關係。事情是這樣的，雖然蔡英文的得票就是８１７萬，這是必然的，Ｐ＝１，得票率就８１７／１４３０，５７％多一點，但那是選了之後的現在，２０２３年才知道的。如果是在２０１９年，有人要預測（預測，這２隻字很重要）選舉結果，你就不能叫他等到２０２３年，說到時我們就知道那"未知的固定數"了，可以十分準確的，必然的，Ｐ＝１的，知道蔡英文有８１７萬票，因為那顯然是沒有用的。那要怎麼辦呢？除了占卜、問卦、坐時光機之外，想預測未來，還有一種方法，那就是做民調。雖然２０２０年才選舉，但到時要投票的人，現在２０１９年不也是全都在這裡嗎？那問一問他們就好了。好吧，到時有１９３１萬人有投票權，那就去問…… 呃。實務上絕對不可能，只比坐時光機簡單一點。於是，就只好問少一點的人。假設２０１９年，你問了１０００個人，５５０人說要投蔡英文，佔５５％，那到時選舉蔡的得票率多少？５７％多一點，蔡英文有８１７萬票，是必然的，Ｐ＝１的。又假設２０１９年，你問了１０００個人，５６０人說要投蔡英文，佔５６％，那到時選舉蔡的得票率多少？５７％多一點，蔡英文有８１７萬票，是必然的，Ｐ＝１的。沒有其他可能。其他得票８１６萬，８１８萬，５５２萬的機率，全部都是０。那５７％多一點，就是那在２０１９尚「未知的」一個「固定數」。做民調就是想要「預測」它。於是，那麼，問完１０００個人，得來的５５％、或者５６％，又有什麼用呢？首先要知道，這５５％或者５６％幾乎不可能準確的命中最後那固定數，這是「連續區間」和「離散」的概念，是要自吹自擂自己有學統計時的基礎知識。不嚴謹的解釋是，因為那是５７％多一點，不是５７％，那個多一點是幾乎不可能命中的。所以，要用「區間」來為那５５％、或者５６％，加闊猜度範圍，通常是後面加個正負幾％。然後這個加正負幾％，要加幾多才好呢？其實沒規定。但約定俗成，都是用９５％信心區間。信心區間不難，搞清楚就不高深，是很入門的，自吹自擂時要注意。例如９５％信心區間，就是有９５％的信心，最後的那個「未知的固定數」，會在猜度的區間內。至於加正負多少％，才會令做民調的有信心，覺得最後「未知的固定數」會在區間內，就倒是有點深，以下不細說。結論是， : : 假設統計誤差是3%， : : 那麼做出來的民調看起來是40%的， : : 其實真實值是37%到43%之間都有可能對吧？連以１％和９９％做中心的正負０.幾％的區間都有可能嘻嘻，這就是民調。 : : （95%信心水平下）對啊，在37%到43%之間，只保證了９５％的信心，其他區間總共可以分到剩下的５％。 : : 那問題是想問說， : : 真實值是從37%到43%之間任何數的可能性都一樣嗎？不一樣。 : : 還是說，真實值離40%越近的可能性就越大，以這份民調的猜測來說，是。但真實值永遠都是那個「未知的固定數」，做民調充其量只是去猜，嚴謹的說民調的％其實和真實值沒什麼關係。 : : 而真實值是37%或是43%雖然也有可能，做民調只是猜，本質上和占卜問卦差不多，就你民調有根據科學方法，預測起來理論上會稍微準一點。所以真實值絕對有可能在１％或者９９％，至於民調說４０％什麼的，嘻嘻，就猜不中囉，啾咪～ : : 但是可能性會下降呢？我知道肯定有人要抬槓，說因為37.1和41.2的兩個點，其機率都幾乎等於０，所以自己沒答錯。但可惜，就算不看37.1和41.2為中心的附近「區間」41.2確實比37.1機率高，單比較37.1和41.2，兩個幾乎等於０的點，也是可以的，41.2就是比37.1機率高。 : 不過想一想, 確實p只有一個, 就是38%. : ------------------------------ : 後來有了貝氏統計, 但是貝氏統計更反人類認知, 拜託多讀書吧，這段是完全沒有讀書。 : 貝氏統計認為37~43的每個數字的機率都是0, 連同38在內這不是貝氏統計的認為，這是「離散」和「連續」的問題。不嚴謀的說法，如果充許37~43的每個數字都有為正的機率，當然每個個別的數字的機率都是０，你個別數字在數線上就是一點，那自然只能是０。像４０，真的會那麼準中正４０嗎？４０.１呢？４０.０１呢？４０.００１呢？有這麼多數字去分，分完當然是無限接近０，可以直接寫做０了。 : 不過貝氏統計定義了區間的概念, 錯。有好好上課嗎？還是沒讀過大學？下面不逐一挑錯了。 : 你抽樣出來的1068個樣本是40% : 那麼真實的p : 落在40~43的機率是47.5% : 落在37~40的機率是47.5% : 落在37~43的機率是95% : 總之符合以40%為中心的常態分佈. : 不過以上是建立在一個中性的假設下. : ---------------------------- : 但是貝氏統計不一定是中性假設, : 例如有些學者認為這個候選人先天上看起來就不怎麼行, : 雖然抽出來的1068個樣本是呈現40%支持率, : 但是先天要扣幾分 : 所以最後可能得到一個以35%為中心的常態分佈 : 但是這種情況, 需要有一個很懂選舉的人, : 來決定先天這個候選人要扣幾分. : -------------------------------------- : 最後這項比較符合人類的認知, : 也就是這個選舉專家能看出這個候選人的後勁是否夠強 : 配合民調的資料, 來估計這個候選人將來在投票的那天能得到多少選票. : 可能是以35%為中心的常態分佈, 也可能是一個以45%為中心的常態分佈. : 最後, 貝氏統計認為, 樣本數夠大的情況下, 選舉專家的主觀認知會被沖淡, : 如果蒐集了10000個樣本, 支持率還是40%, : 那麼貝氏統計會就會認為這是一個以40%為中心的常態分佈. 連基礎也錯，這想要做統計相關的工作一定是沒有位置。難怪有這麼多高學歷的，卻總對社會不滿，就例如某族群…… -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 222.166.97.10 (香港) ※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700695878.A.BC3.html

→

q347

11/23 07:32, 5月前 , 1^F

11/23 07:32, 1^F

→

q347

11/23 07:33, 5月前 , 2^F

11/23 07:33, 2^F

推