Re: [新聞] 賴清德反對手機民調 總統蔡英文:不能因噎廢食
看到「發達資本主義時代的打油詩人」昨天貼了
【關於民調抽樣,賴清德的兩個問題】,徵得作者同意轉貼到八卦版。
https://tinyurl.com/DrLieNeeds2LearnSamplingAgain
因為原文是統計課抽樣民調原理的課堂解說重現,內文很長很長很長,
統計學有重修過的,或是對統計學/民調抽樣原理有興趣的,再慢慢仔細看~
因此先copy結論在前頭,節省八卦鄉民時間,不要在推噓文抱怨太長跳過了~
沒耐心沒時間看完的人,請直接衝著結論來好嘛?
_____先說結論_____
學術宅的話說完了。
身為一個打油詩人,我卻還有幾句話。
我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。
它是這麼說的:
「母體裡的任一個體,有相同的機率被選進樣本裡。」
這難道不是某種對「民主」或是「平等」的隱喻嗎?
而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎?
我們只是希望,我們也有相同的機率,被選進樣本裡。
我們只是希望,我們也能說出我們要什麼。
這,有,很,難,理,解,嗎?
_______________ 本 文 開 始 ______________
【關於民調抽樣,賴清德的兩個問題】
我其實蠻不喜歡寫賴清德的,主要的原因是我個人的寫作偏好。政治人物對我來說
有四種:我喜歡的、我討厭的、我感覺複雜的、我沒感覺的。前兩種我寫得比較多,
尤其是第二種。第三種我不知從何寫起,最後一種我懶得寫。
賴清德屬於第四種。簡單講,我覺得他是個無聊的人。就在幾天前,五四一百週年,
他跑去胡適紀念館,讓我發現他這個人實在太無聊了,無聊到有點好笑的程度,所以
我寫了一篇。後來談他和蔡英文在同一天的活動,算是五四那篇的衍生物。寫完「這
個人真的很無聊」這件事以後,我又懶得寫他了。
偏偏我現在又要來寫他了。我很不想寫,到正在打字的當下還是不想寫,但是他幹了
一件事,讓我覺得自己有一點點義務出來講兩句話。
◇◇◇
事情是這樣的。最近民進黨在吵初選民調,吵到了市話民調與手機民調的問題。支持
手機民調的人主張,這年頭已經有很多人生活裡已經完全沒有市話了,用市話民調將
會忽略這些人的意見。 賴清德跑出來反對他們,說還是市話好。為什麼市話民調比
較好呢?他當然有他的陰謀論故事可以講,但是傳播陰謀論以前,他還算盡責地正面
回應了手機民調支持者的訴求。簡單講,他認為市話民調忽略純手機用戶不是個問題。
這是我的重點。我覺得他的問題大了。
直接引用報導中的說法吧,刪節號為本人所加,本引文刪除了民調作弊等陰謀論,純
粹討論賴清德關於「家戶民調不會忽略只用手機的年輕人」的說法。
『賴清德說,過去民調有辦法用1千多通電話代表母群體,一個行政區、一個縣、一個
國家,是因為有嚴謹的科學依據。今天改成手機,有無辦法代表真正的民意恐怕要謹
慎......至於年輕人接不到電話的問題,賴清德說,這個可以回推,用加權方式解決
年輕人少接到電話問題......如果家戶民調,年輕人在人口比例是10%,電話民調只有
5%年輕人接到,可以加權成2倍;年紀大的人假設人口比例是15%,接到電話是30%,加
權可以乘以0.5,回歸到母群體的分布。』
賴清德的這段話有兩個問題。
◇◇◇
第一,賴清德說「過去民調有辦法用一千多通電話代表母群體」,這是錯的。我不知道
這樣講會不會很違反大家的常識,但是事情就是這樣。
首先,我們得稍微瞭解一下賴清德所謂的母群體是什麼。我個人比較習慣的叫法是「母
體」,不是駭客任務的那個matrix,是population。所謂的母體指的是「我們做這個調
查真正想要瞭解的那群人」,在選舉民調的情境下,一般指的就是「有投票權的國民」
。這種人在台灣有一兩千萬,我們當然不可能去問每一個人他支持誰,所以我們得找到
一群有代表性的人,並且用各種科學方法確保這群人的投票意向和母體越類似越好。這
群人就叫做「樣本」。
這就是母體和樣本的關係,大概可以算是抽樣理論的基礎吧。當賴清德說「過去民調有
辦法用1千多通電話代表母群體,是因為有嚴謹的科學依據」的時候,他的意思就是說
「如果我們把抽樣設計得很嚴謹很科學,樣本就可以代表母體」。
然後請容我再說一次,這句話是錯的。
為什麼?
真正嚴謹地討論抽樣的時候,我們不會說樣本(sample)可以代表母體(population)。
在最好的情況下,樣本可以代表抽樣母體(sampled population)。
我們從作為母體的有投票權之國民開始講吧。我們不可能去問這一兩千萬人(母體)中的
每一個人他們支持誰,所以我們要從這麼多人裡面抽出一些人(樣本)來問。問題是,我
們要怎麼抽呢?首先我們得有個名單,從這個名單裡面抽選我們要去問的人。在我們業
內,這個名單叫做「抽樣框」(sampling frame)。在我們現在的案例裡,就是兩個抽樣
框在比誰比較好:一個是市話,一個是手機。
抽樣框和母體一般不會完全重疊,事實上,在很多情況下可能還蠻不重疊的。一方面,
會有一些人在抽樣框裡,卻不是母體的一部份,例如會接到民調電話卻沒有投票權的人。
這些人處理起來很簡單,就當這通電話沒打過,不用他們的數據就好;另一方面的問題
比較複雜,就是明明在母體裡卻沒有被抽樣框包含到的人。例如你用市話當抽樣框,純
手機用戶就是母體中被忽略的成員。
又在母體裡又在抽樣框裡的人之中,還有一些人,叫做拒答者。這些人也蠻難處理的,
但一方面他們不是這次爭論的核心、二方面在選舉這種情境下拒答者恐怕也相對較少,
所以我們先不管吧。到最後,一個抽樣框裡,扣掉不屬於母體的成員、扣掉拒答者,剩
下來的那一塊,就叫做「抽樣母體」。 問卷調查的對象,那些一個一個真的填了問卷
的人,也就是我們的樣本,是從這個抽樣母體裡隨機抽出來的,不是從母體裡隨機抽出
來的。
樣本是從哪裡隨機抽出來的,樣本就代表誰。
賴清德那句話錯就錯在這裡。在一切都盡善盡美超科學超嚴謹的情況下,樣本可以代表
抽樣母體,但不能代表母體。抽樣母體與母體間的距離包括兩種人,一種是拒答者,一
種是一開始就被抽樣框忽略掉的母體成員。從抽樣母體中隨機抽選的樣本,不能代表這
兩種人。
所以,這兩種人,原則上都是我們永遠無法研究、無法推估的,尤其是一開始就被抽樣
框跳過不管的那些人。所以選擇抽樣框的基本原則,就是在其它條件(如成本)類似下,
盡可能讓抽樣框和母體越重疊越好,以減少遺漏。
手機民調和市話民調,哪個抽樣框比較趨近母體,這應該很明顯吧?
◇◇◇
當賴清德說樣本可以代表母體的時候,他在描述的其實是一種理想狀態,一種「抽樣框
和母體重疊」的狀態。
然後他現在的主張是要把抽樣框搞得越小越好、和母體差距越遠越好。
這就是他所謂的嚴謹的科學依據嗎?
◇◇◇
很不幸地,這只是他的第一個問題。
我說的不幸指的是我自己很不幸。為了一個我實在沒什麼興趣的人寫這麼長的文章,
我好不幸。
賴清德的第二個問題是,他認為可以用加權的方式解決年輕人接不到電話的問題。
加權是在做問卷調查的時候常用的方法,作法也的確就如賴清德所說的,如果樣本裡
年輕人佔的比重小於母體中年輕人佔的比重,就給年輕人加點權重,讓樣本的人口結構
符合母體的人口結構。
更直觀點講,加權這件事是這樣的:我們發現我們抽樣回來的年輕人跟母體裡的年輕人
比起來太少了,我們就以我們抽回來的這些年輕人為基礎,複製一些年輕人出來,直到
年輕人在樣本裡的比重和在母體一致為止。
這樣做的主要目的是要讓樣本的人口結構趨近於母體的人口結構,而不是把被抽樣框排
除掉的人找回來。要做到後者,必須先假設:樣本裡的這些年輕人,和被抽樣框排除掉
的那些年輕人是類似的,所以你可以用前者的複製人代替後者。
反過來說,我們必須假設抽樣框一開始排除那些年輕人,是隨機排除的。
如果我們用市話做抽樣框,我們能做這樣的假設嗎?不行。因為這些被排除的年輕人不
是隨機被排除的,他們是因為沒有市話所以被排除的。
沒有市話的年輕人,和有市話的年輕人,是同一種年輕人嗎?我認為不是。有許多人主
張,年輕的租屋者是主要的「沒有市話」的族群;而在這群人身上,兩條形構當代台灣
社會主要社會矛盾的線,剛好交會在一起:城鄉與階級。一般來說,年輕租屋者更有可
能是離家來到都會區工作的城鄉流動者,而非父母就住在都會區、自己也在都會區長大
的年輕人;另一方面,年輕租屋者與年輕購屋者之間,也無可避免地存在著一條階級界
線。
換句話說,我們看看台灣社會的年輕人的一般樣貌,會發現不同類型的年輕人身處在市
話這個抽樣框的內外。在市話抽樣框的外面,是離鄉背井到大城市工作,買不起房子的
年輕人;在抽樣框的內部,是要嘛在大城市長大現今與父母同住、或者乾脆就自己買了
房子的年輕人。
然後今天賴清德說我們抽不到那些離鄉背井買不起房子的年輕人,沒關係,我們就複製
幾個從小在都會區長大,或者自己買了房子的年輕人,用這些複製人來代替那些被排除
的年輕人好了。
賴清德敢講這種話,我不敢。
摸著研究法講義也不敢,摸著良心也不敢。
◇◇◇
我猜這是我開站以來寫過最長的文章了吧。不過我沒算字數,是用疲倦與沮喪的程度
來估計的。
我一開始就說過我蠻不喜歡寫賴清德的,但是這件事我不得不寫。寫這麼長這麼囉嗦,
大概也不會有人看,但是我覺得這件事很重要,不能不寫。
我這輩子跟民進黨沒什麼瓜葛,所以也沒特別關注他們的初選。然而我跟研究法瓜葛
倒是不少,身為一個學術宅,我希望大家不要再扯陰謀論或是歷年初選的陳規了。做
民調,就是要知道人民在想什麼。抽樣框越貼近母體越好,這不是挺簡單的道理嗎?
◇◇◇
學術宅的話說完了。身為一個打油詩人,我卻還有幾句話。
我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。它是這麼說的:
「母體裡的任一個體,有相同的機率被選進樣本裡。」
這難道不是某種對「民主」或是「平等」的隱喻嗎?
而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎?
我們只是希望,我們也有相同的機率,被選進樣本裡。
我們只是希望,我們也能說出我們要什麼。
這,有,很,難,理,解,嗎?
取自:[臉書] 發達資本主義時代的打油詩人
https://tinyurl.com/FuckDuckTsaiBeatOilPoet
--
☑低調 ☑認真 ☑平凡 ☑規律 ☑踏實
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.128.162
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1557277249.A.051.html
※ 編輯: shamdoer (1.173.128.162), 05/08/2019 09:02:33
→
05/08 09:05,
5年前
, 1F
05/08 09:05, 1F
推
05/08 09:06,
5年前
, 2F
05/08 09:06, 2F
→
05/08 09:07,
5年前
, 3F
05/08 09:07, 3F
噓
05/08 09:09,
5年前
, 4F
05/08 09:09, 4F
dpp這次初選規則是便宜行事,想說沒人要出來跟小英競選,
就原封不動從上屆搬到這借來用,沒想到跑出金孫程咬金,
應該亡羊補牢讓初選規定更周延一些。
噓 bluegold: 你知道一個人可以有很多手機門號嗎 05/08 09:11
噓
05/08 09:11,
5年前
, 5F
05/08 09:11, 5F
呵呵 你統計學分數很高齁?
→
05/08 09:12,
5年前
, 6F
05/08 09:12, 6F
推
05/08 09:12,
5年前
, 7F
05/08 09:12, 7F
推
05/08 09:14,
5年前
, 8F
05/08 09:14, 8F
→
05/08 09:14,
5年前
, 9F
05/08 09:14, 9F
噓
05/08 09:17,
5年前
, 10F
05/08 09:17, 10F
目前規定是每人最多可以申請五門門號,
短期內很難去生出那麼多新門號,去影響整個民調抽樣的準確性。
而提出這質疑的人,應該先捫心自問:
用家戶電話進行民調的這個抽樣框會篩選掉多少只有手機門號的選民,
先談舊弊並,再談公平性。
推
05/08 09:18,
5年前
, 11F
05/08 09:18, 11F
→
05/08 09:18,
5年前
, 12F
05/08 09:18, 12F
楊憲宏說接聽手機民調可能在開車或走路,實際上不難解決,
先簡訊通知之類都可以解決。
但是家戶電話的侷限性,只講以往2600局碼只抽700局碼來抽樣,
根本沒講到家戶電話對母體代表性不足的問題,
而且,他們沒有講到預付卡門號一人最多只能申請五門,
要用人頭灌水根本沒那麼簡單,更何況短時間內去哪裡生那麼多人頭門號?
推
05/08 09:22,
5年前
, 13F
05/08 09:22, 13F
→
05/08 09:22,
5年前
, 14F
05/08 09:22, 14F
→
05/08 09:22,
5年前
, 15F
05/08 09:22, 15F
→
05/08 09:23,
5年前
, 16F
05/08 09:23, 16F
→
05/08 09:24,
5年前
, 17F
05/08 09:24, 17F
→
05/08 09:24,
5年前
, 18F
05/08 09:24, 18F
手機民調的 必要性 跟 可行性(抽樣技巧)不是同一件事,
這篇文只談手機民調的必要性就寫這麼長了,
很難奢求他/她完整寫出全套的解決方案,因為這樣就跟廢文無異嘛?
噓
05/08 09:24,
5年前
, 19F
05/08 09:24, 19F
金孫背刺,見招拆招。
推
05/08 09:25,
5年前
, 20F
05/08 09:25, 20F
推
05/08 09:25,
5年前
, 21F
05/08 09:25, 21F
噓
05/08 09:25,
5年前
, 22F
05/08 09:25, 22F
推
05/08 09:27,
5年前
, 23F
05/08 09:27, 23F
噓
05/08 09:27,
5年前
, 24F
05/08 09:27, 24F
→
05/08 09:27,
5年前
, 25F
05/08 09:27, 25F
→
05/08 09:27,
5年前
, 26F
05/08 09:27, 26F
→
05/08 09:30,
5年前
, 27F
05/08 09:30, 27F
→
05/08 09:30,
5年前
, 28F
05/08 09:30, 28F
手機民調的隨機抽樣技巧,據我所知現在只有三個人知道,
其中一個不是我,所以我沒辦法告訴你。
但是你的咖逃嗚沒有告訴你?
不要拿家戶電話的隨機抽樣特性,拿來要求手機民調嘛?
不要拿手機民調隨機抽樣技巧的困難度問題,
拿來反駁一篇強調手機民調必要性的文章好嘛?
不好做、很難做到隨機抽樣,就都不用開始做了嘛?
總歸一句,還是要怪金孫看到DPP黨內因循苟且的初選規定,有機可趁。
違背他在行政院長任內說的支持小英選2020的承諾,
說什麼他要選擇承擔,所以要參加初選,
才害大家現在急急忙忙在爭論要不要/怎麼把手機加入民調抽樣。
噓
05/08 09:30,
5年前
, 29F
05/08 09:30, 29F
又臭又長( )*( )~~~
→
05/08 09:31,
5年前
, 30F
05/08 09:31, 30F
→
05/08 09:32,
5年前
, 31F
05/08 09:32, 31F
→
05/08 09:32,
5年前
, 32F
05/08 09:32, 32F
推
05/08 09:32,
5年前
, 33F
05/08 09:32, 33F
→
05/08 09:32,
5年前
, 34F
05/08 09:32, 34F
→
05/08 09:34,
5年前
, 35F
05/08 09:34, 35F
→
05/08 09:34,
5年前
, 36F
05/08 09:34, 36F
→
05/08 09:34,
5年前
, 37F
05/08 09:34, 37F
推
05/08 09:35,
5年前
, 38F
05/08 09:35, 38F
噓
05/08 09:35,
5年前
, 39F
05/08 09:35, 39F
→
05/08 09:35,
5年前
, 40F
05/08 09:35, 40F
→
05/08 09:38,
5年前
, 41F
05/08 09:38, 41F
→
05/08 09:39,
5年前
, 42F
05/08 09:39, 42F
→
05/08 09:40,
5年前
, 43F
05/08 09:40, 43F
→
05/08 09:41,
5年前
, 44F
05/08 09:41, 44F
→
05/08 09:42,
5年前
, 45F
05/08 09:42, 45F
→
05/08 09:42,
5年前
, 46F
05/08 09:42, 46F
→
05/08 09:43,
5年前
, 47F
05/08 09:43, 47F
→
05/08 09:43,
5年前
, 48F
05/08 09:43, 48F
→
05/08 09:43,
5年前
, 49F
05/08 09:43, 49F
→
05/08 09:44,
5年前
, 50F
05/08 09:44, 50F
→
05/08 09:45,
5年前
, 51F
05/08 09:45, 51F
→
05/08 09:45,
5年前
, 52F
05/08 09:45, 52F
→
05/08 09:46,
5年前
, 53F
05/08 09:46, 53F
→
05/08 09:46,
5年前
, 54F
05/08 09:46, 54F
→
05/08 09:47,
5年前
, 55F
05/08 09:47, 55F
→
05/08 09:47,
5年前
, 56F
05/08 09:47, 56F
→
05/08 09:49,
5年前
, 57F
05/08 09:49, 57F
→
05/08 09:51,
5年前
, 58F
05/08 09:51, 58F
→
05/08 09:53,
5年前
, 59F
05/08 09:53, 59F
推
05/08 10:16,
5年前
, 60F
05/08 10:16, 60F
噓
05/08 10:19,
5年前
, 61F
05/08 10:19, 61F
→
05/08 10:19,
5年前
, 62F
05/08 10:19, 62F
→
05/08 10:20,
5年前
, 63F
05/08 10:20, 63F
也要感謝金孫趁虛背刺,手機民調的重要性才能被大家認真討論。
推
05/08 10:43,
5年前
, 64F
05/08 10:43, 64F
※ 編輯: shamdoer (1.173.128.162), 05/08/2019 11:26:47
噓
05/08 11:44,
5年前
, 65F
05/08 11:44, 65F
→
05/08 11:44,
5年前
, 66F
05/08 11:44, 66F
噓
05/08 11:46,
5年前
, 67F
05/08 11:46, 67F
→
05/08 11:46,
5年前
, 68F
05/08 11:46, 68F
→
05/08 11:47,
5年前
, 69F
05/08 11:47, 69F
噓
05/08 11:52,
5年前
, 70F
05/08 11:52, 70F
→
05/08 11:52,
5年前
, 71F
05/08 11:52, 71F
→
05/08 11:52,
5年前
, 72F
05/08 11:52, 72F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 8 之 12 篇):