Re: 真是傻眼的民調...

看板media-chaos作者 (加西莫多)時間17年前 (2007/08/16 12:13), 編輯推噓0(0014)
留言14則, 2人參與, 最新討論串10/27 (看更多)
※ 引述《nightcatman (夜貓)》之銘言: : ※ 引述《waynedd (加西莫多)》之銘言: : 在此我再次強調 : 我在這討論串中對這主題唯一的主張就是 : "無法用30%左右的拒訪率就完全否定某個統計結果" : 請參閱我在11913的推文內容 : 我並沒有否認追求降低拒訪率的種種方法 : 也沒有直接斷定這個統計結果是對是錯 : 所以如之前推文所述 : 請先確定我們在講的是同一件事 如果替代樣本不會造成任何失真的話,為何需要「追求降低拒訪率的種種方 法」?能夠斷定這個統計結果是錯,是因為原樣本被替代後,他可能會符合 「信心水準95% (或任一百分比),抽樣誤差正負3%(或任一百分比)」這個前 提下嗎? : : 不知道找到被我暱稱為「雷根事件」的內容了沒,乾脆我來直接揭曉好。 : : http://0rz.tw/132W2 : : 這個案例是我的統計老師課堂上所說,他也曾經在投書中提過該案例,因為 : : 沒有錄音也沒有把該投書剪報留存,所以我就引用吳統雄教授所寫的東西。 : : 這個案例我之前寫的內容也說過,這次我就把它寫清楚,畢竟這個事件讓人 : : 知道追樣本的重要性。 : : 1984年雷根對上孟岱爾,當初民調結果被認為這是一場勢均力敵的選戰,不 : : 過雷根可能會是慘勝;最終結果出來了,雷根也確實獲得勝利,但是知道那 : : 次選舉的人都知道,雷根是獲得壓倒性的勝利。就結果來說,民調看似是準 : : 的,預測雷根獲勝結果也是如此,但是有人不滿足,認為結果是大勝但是民 : : 調卻呈現勢均力敵,因此就決定追到每一個原本抽出的樣本,詢問出原本的 : : 該名受訪者的意向,重做後的結果也確實最接近選舉完之後的差距。 : : 這個事件說明了幾件事情:第一,一開始抽出的樣本是具有代表性的,不能 : : 隨意替換;第二,某一方的支持者具有一些特性,不易被調查到,例如「雷 : : 根事件」中,雷根支持者行動力強,所以很願意去參加選舉人舉辦的晚會, : : 而對手的支持者因為年紀偏高而比較不願意出走動,所以接到電訪機會高; : : 第三,建立追樣本的規範。 : : 我用的是「替代樣本」這個字眼,因為拒訪率只是會產生原樣本被替代的一 : : 種可能性,像是沒有接起電話因此而被替代的,這是從拒訪率中所看不到的 : : 。因此,看到拒訪率好像只有三成沒什麼影響,實際原樣本被替代的比率更 : : 是高過可被計算出的拒訪率。 : 我想你並沒有正確理解這個事件的原理 : 這個事件之所以會發生替代樣本有誤差的情況 : 原因在於 "美國共和黨員較不容易在家" 這個事實 : 也就是說, 發生替代的原因(不在家)正好帶有能影響結果的bias(共和黨員) : 所以你可以很確定的說 : 在這個例子裏替代樣本確實會造成誤差 : 但,很顯然的,這樣的bias並不一定會存在於所有的例子裏 : 以本例而言 : 如果不在家的人所支持政黨的分佈和母體並無差異 : 那麼你不管換幾次樣本,替代樣本都不可能會造成誤差 : 你也許會說,在實作上,這種隱性的bias經常都是存在的 : 那ok, 因為這是一個經驗性的敘述 : 你說的那些民調改善辦法,也是基於這種經驗性的原則來發展的 : 但我要說的是,理論上來說 : 替代樣本就是有不具bias的可能性,你無法否認 如果我說的是經驗性的原則,你自己所說的呢?其實比我更大膽,這是一個 「假設性」,「假設」了「不在家的人所支持政黨的分佈和母體並無差異」 ,因此推論出「不管換幾次樣本,替代樣本都不可能會造成誤差」,就你自 己也承認的,誰都不知道母體長什麼樣子,請問你的假設有辦法證明成立嗎 ?這個問題相信在「雷根事件」前有被討論過,而「雷根事件」後發現,「 假設不在家的人所支持政黨的分佈和母體並無差異」是不成立的,反而需要 追原本所抽出的樣本,所獲得的結果才是正確的。 所以不管樣本被替代的理由是什麼,「雷根事件」的原理在於:「依照統計 方法所抽出的樣本是具有代表性,遭到替代後會造成樣本結構高於原先所設 定的誤差」。所以要我承認「替代樣本就是有不具bias的可能性」,那請先 證明「被替代樣本的所有因素之分佈和母體並無差異」的「如果」先成立再 說。 以上別跟我說你沒假設,因為你用了「如果」的字眼。 : : 所以,「替代樣本『可能』會造成最後結果失真,但並非『一定』會失真」 : : ?顯然這句話是不成立,因為「雷根事件」就很明白的顯示出有誤差,如果 : : 認為「舉例無用」的話,那看看民意調查裡為何須提出追樣本、imputation : : 、post-stratification 這幾種「補救辦法」?有人提出多有「創見」的觀 : : 點,甚至認為「替代樣本比較接近母體分佈」的可能性,哇嗚!那乾脆喊出 : : 其實指指點兵也有「接近母體分佈」的可能性好了,一定是瘋子才會為了只 : : 是決定該打哪些電話號碼,發展出了起碼六種抽樣方法。更別提imputation : : ,為了「補救」甚至需要建立模型,post-stratification 的研究起碼有八 : : 本具有里程碑的文獻。替代原樣本會不會造成失真?我給的答案就是:一定 : : 會,肯定會。 : 我前段已回覆 : 我的答案就是: 理論上就是不一定會 : 你所說的"一定"是基於經驗法則,並不是數學 : 數學並不是用舉例來證明的 : 另外這邊你提到imputation和post-stratification : 其實有點離題 : 這些都是事後用經驗性的假設來補data的辦法 : 選取某些主要變數當做missing data的分佈 : 或是選用其他相同調查對象的結果當標準來加權原樣本以補上data : 但,選取的過程極端仰賴經驗 : 如果所選的和母體分佈差太多,反而會做出更糟的結果 : 但不論如何 : 提這些補data的方法,都和我想要講的主題 : "無法用30%左右的拒訪率就完全否定某個統計結果" 離題太多 : 再次強調 : 我並沒有要否定使用這些補data的技巧 : 我只是要說, 30%左右的拒訪率, 你不能說他一定是錯 : 甚至就算你要補data,也還有越補越差的風險在 : 並不是有補誤差就一定會降 「理論上就是不一定會」?你前段的理論上,是建立在一個無法證明其是否 成立的「如果」上。所以,imputation和post-stratification 是建立在一 個「事後用經驗性的假設來補data」,那請問你的「如果」是建立在「什麼 」上的「假設」? 提imputation和post-stratification 離題?我只想知道如果樣本被替代真 如你所說「理論上就是不一定會」造成誤差,那又何須發展出這些「事後用 經驗性的假設來補data的辦法」?甚至還要冒著「選取的過程極端仰賴經驗 ,如果所選的和母體分佈差太多,反而會做出更糟的結果」的風險呢?是那 些研究人員太閒了,無聊玩玩建立模型、寫寫起碼八本重要貢獻的文獻? : : 「舉例無用」?看看誤解以為我理解錯的案例,為何文學文摘用的方法會認 : : 為失真而被取代?從這個案例中學習到樣本多不見得是好,樣本有代表性才 : : 重要,如果「案例無用」,那請問有人會相信電視台下要打電話進去投票的 : : 「民調」嗎?有人會相信網路上滑鼠點一點作出來的「民調」嗎?這些都跟 : : 文學文摘的作法一樣,甚至比寄信函還方便還更即時。而且,又都在認為母 : : 體未知下,以「『可能』會造成最後結果失真,但並非『一定』會失真」、 : : 「比較接近母體分佈」來辯解,這樣豈不是打電話去投票、用網路去投票的 : : 結果都可信了? : 首先, 我從來沒說過 "樣本多就是好", 我只認為"有比較大的可能性是好" : 真要嚴謹的講統計,話都要講得很保守才行 : 我仍舊認為你有錯誤的理解 : 你把別人用來處理常見案例的經驗性原則 : 誤解為是理論上的必然 : 再重覆一次, 話要講得很保守 : 你得要分清楚"常見"和"一定"的差別所在 首先,「從這個案例中學習到樣本多不見得是好」,這是解釋文學文摘帶給 大家的省思,但是這是回應的所謂的「舉例無用」論。 話要說的保守?OK!請告訴我樣本被替代後你有多少把握是符合母體分佈? 或者說在1067個樣本數、信心水準 95%、抽樣誤差+-3%下,你有多少把握在 樣本數被替代三分之一後,還符合這樣的信心水準跟抽樣誤差?甚至你有多 少把握「被替代樣本的因素之分佈和母體並無差異」的「假設」是成立的? 以及我是以「別人用來處理常見案例的經驗性原則,誤解為是理論上的必然 」,那你的「被替代樣本的因素之分佈和母體並無差異」又建立在「什麼性 」的「原則」呢? 既然知道「真要嚴謹的講統計,話都要講得很保守才行」,我真的不太曉得 「被替代樣本的因素之分佈和母體並無差異」,此話「保守」了嗎? : : 最後,如果只是講個「分布」就表示「數學理論」,那我所說的案例可包含 : : 了前人運用了無數的「數學理論」與發想。 : 分佈當然是數學 : 前人運用數學理論來改善抽樣方法當然也是數學 : 但是你必須要了解這些改善抽樣方法背後的數學基礎 : 以及它們適用的狀況,條件,和限制為何 : 並不是一個方法做出來,就一定會在所有情況下都做出必然的結果 : 尤其是統計方法,這種情況更常發生 : 整個討論串下來,我覺得這是你最大的盲點所在 : 所以我才會說,你對於"演進史"這種事的認知,高於你對於理論本身的認知 : 以上 所以你了解了樣本被替代的「狀況、條件和限制」了嗎?所以請告訴我「被 替代樣本的因素之分佈和母體並無差異」的數學基礎是什麼? 社會科學的目的是什麼?就是要「同一個方法做出來,就一定會在同情況下 都做出必然相同的結果」,因此統計方法會說「在1067個樣本數、信心水準 95% 、抽樣誤差+-3%」下,確實訪問到一開始被抽出的樣本,所得的結果是 會一樣的,這些是嚴謹的統計下的「狀況、條件和限制」。 最後,我把幾個問題整理一下,希望能得到你的回答: 1.請證明「被替代樣本的所有因素之分佈和母體並無差異」的「如果」成立? 2.「被替代樣本的所有因素之分佈和母體並無差異」建立在「什麼性」的「原 則」? 3.在確實訪問到原本樣本下,可以有把握的說「在1067個樣本數,調查結果有 信心水準95% 、抽樣誤差+-3%的範圍內確實反映母體」,請問在原樣本被替 代三分之一的情況,還有把握結果能在「信心水準95% 、抽樣誤差+-3%的範 圍內確實反映母體」? 4.「『如果』不在家的人所支持政黨的分佈和母體並無差異,那麼你不管換幾 次樣本,替代樣本都不可能會造成誤差」,此句話在你認為「真要嚴謹的講 統計,話都要講得很保守才行」認知下,「保守」嗎? -- 手是為了握在一起而存在的 不是嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.119.210.224

08/16 12:27, , 1F
沒人知道原始樣本真的不用加權吧?
08/16 12:27, 1F

08/16 12:29, , 2F
所以替代樣本究竟造成多少誤差是個問號
08/16 12:29, 2F

08/16 13:01, , 3F
如果原始樣本抽出後.需要加權..抽樣過程就
08/16 13:01, 3F

08/16 13:02, , 4F
需要檢討了.問"替代樣本造成多少誤差"..其
08/16 13:02, 4F

08/16 13:02, , 5F
實就表示會有誤差.所以我才用"雷根事件"..
08/16 13:02, 5F

08/16 13:04, , 6F
民調跟結果都是雷根勝.無誤差..民調表示險
08/16 13:04, 6F

08/16 13:05, , 7F
勝.結果是壓倒勝..有誤差..
08/16 13:05, 7F

08/16 15:35, , 8F
除非全部原始樣本都受訪 怎麼知道要加權
08/16 15:35, 8F

08/16 15:36, , 9F
而且我真的沒聽過雷根事件...有文獻嗎?
08/16 15:36, 9F

08/16 21:35, , 10F
08/16 21:35, 10F

08/16 21:36, , 11F
令不懂你的問題.但現今加權會大致以男女比
08/16 21:36, 11F

08/16 21:37, , 12F
這種容易窺探母體長相的分布來做調整依據.
08/16 21:37, 12F

08/16 21:38, , 13F
對了.吳教授所引的書是政大總圖合訂期刊區
08/16 21:38, 13F

08/16 21:39, , 14F
12A-051.大概靠近柱子那.想翻可以去翻翻看
08/16 21:39, 14F
文章代碼(AID): #16myy4iN (media-chaos)
討論串 (同標題文章)
文章代碼(AID): #16myy4iN (media-chaos)