Re: [新聞] 賴清德反對手機民調 總統蔡英文:不能因噎廢食

看板Gossiping作者 (青菜市子ファンクラブ)時間5年前 (2019/05/08 09:00), 5年前編輯推噓0(121248)
留言72則, 19人參與, 5年前最新討論串8/12 (看更多)
看到「發達資本主義時代的打油詩人」昨天貼了 【關於民調抽樣,賴清德的兩個問題】,徵得作者同意轉貼到八卦版。 https://tinyurl.com/DrLieNeeds2LearnSamplingAgain 因為原文是統計課抽樣民調原理的課堂解說重現,內文很長很長很長, 統計學有重修過的,或是對統計學/民調抽樣原理有興趣的,再慢慢仔細看~ 因此先copy結論在前頭,節省八卦鄉民時間,不要在推噓文抱怨太長跳過了~ 沒耐心沒時間看完的人,請直接衝著結論來好嘛? _____先說結論_____ 學術宅的話說完了。 身為一個打油詩人,我卻還有幾句話。 我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。 它是這麼說的: 「母體裡的任一個體,有相同的機率被選進樣本裡。」 這難道不是某種對「民主」或是「平等」的隱喻嗎? 而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎? 我們只是希望,我們也有相同的機率,被選進樣本裡。 我們只是希望,我們也能說出我們要什麼。 這,有,很,難,理,解,嗎? _______________ 本 文 開 始 ______________ 【關於民調抽樣,賴清德的兩個問題】 我其實蠻不喜歡寫賴清德的,主要的原因是我個人的寫作偏好。政治人物對我來說 有四種:我喜歡的、我討厭的、我感覺複雜的、我沒感覺的。前兩種我寫得比較多, 尤其是第二種。第三種我不知從何寫起,最後一種我懶得寫。 賴清德屬於第四種。簡單講,我覺得他是個無聊的人。就在幾天前,五四一百週年, 他跑去胡適紀念館,讓我發現他這個人實在太無聊了,無聊到有點好笑的程度,所以 我寫了一篇。後來談他和蔡英文在同一天的活動,算是五四那篇的衍生物。寫完「這 個人真的很無聊」這件事以後,我又懶得寫他了。 偏偏我現在又要來寫他了。我很不想寫,到正在打字的當下還是不想寫,但是他幹了 一件事,讓我覺得自己有一點點義務出來講兩句話。 ◇◇◇ 事情是這樣的。最近民進黨在吵初選民調,吵到了市話民調與手機民調的問題。支持 手機民調的人主張,這年頭已經有很多人生活裡已經完全沒有市話了,用市話民調將 會忽略這些人的意見。 賴清德跑出來反對他們,說還是市話好。為什麼市話民調比 較好呢?他當然有他的陰謀論故事可以講,但是傳播陰謀論以前,他還算盡責地正面 回應了手機民調支持者的訴求。簡單講,他認為市話民調忽略純手機用戶不是個問題。 這是我的重點。我覺得他的問題大了。 直接引用報導中的說法吧,刪節號為本人所加,本引文刪除了民調作弊等陰謀論,純 粹討論賴清德關於「家戶民調不會忽略只用手機的年輕人」的說法。 『賴清德說,過去民調有辦法用1千多通電話代表母群體,一個行政區、一個縣、一個 國家,是因為有嚴謹的科學依據。今天改成手機,有無辦法代表真正的民意恐怕要謹 慎......至於年輕人接不到電話的問題,賴清德說,這個可以回推,用加權方式解決 年輕人少接到電話問題......如果家戶民調,年輕人在人口比例是10%,電話民調只有 5%年輕人接到,可以加權成2倍;年紀大的人假設人口比例是15%,接到電話是30%,加 權可以乘以0.5,回歸到母群體的分布。』 賴清德的這段話有兩個問題。 ◇◇◇ 第一,賴清德說「過去民調有辦法用一千多通電話代表母群體」,這是錯的。我不知道 這樣講會不會很違反大家的常識,但是事情就是這樣。 首先,我們得稍微瞭解一下賴清德所謂的母群體是什麼。我個人比較習慣的叫法是「母 體」,不是駭客任務的那個matrix,是population。所謂的母體指的是「我們做這個調 查真正想要瞭解的那群人」,在選舉民調的情境下,一般指的就是「有投票權的國民」 。這種人在台灣有一兩千萬,我們當然不可能去問每一個人他支持誰,所以我們得找到 一群有代表性的人,並且用各種科學方法確保這群人的投票意向和母體越類似越好。這 群人就叫做「樣本」。 這就是母體和樣本的關係,大概可以算是抽樣理論的基礎吧。當賴清德說「過去民調有 辦法用1千多通電話代表母群體,是因為有嚴謹的科學依據」的時候,他的意思就是說 「如果我們把抽樣設計得很嚴謹很科學,樣本就可以代表母體」。 然後請容我再說一次,這句話是錯的。 為什麼? 真正嚴謹地討論抽樣的時候,我們不會說樣本(sample)可以代表母體(population)在最好的情況下,樣本可以代表抽樣母體(sampled population)。 我們從作為母體的有投票權之國民開始講吧。我們不可能去問這一兩千萬人(母體)中的 每一個人他們支持誰,所以我們要從這麼多人裡面抽出一些人(樣本)來問。問題是,我 們要怎麼抽呢?首先我們得有個名單,從這個名單裡面抽選我們要去問的人。在我們業 內,這個名單叫做「抽樣框」(sampling frame)。在我們現在的案例裡,就是兩個抽樣 框在比誰比較好:一個是市話,一個是手機。 抽樣框和母體一般不會完全重疊,事實上,在很多情況下可能還蠻不重疊的。一方面, 會有一些人在抽樣框裡,卻不是母體的一部份,例如會接到民調電話卻沒有投票權的人。 這些人處理起來很簡單,就當這通電話沒打過,不用他們的數據就好;另一方面的問題 比較複雜,就是明明在母體裡卻沒有被抽樣框包含到的人。例如你用市話當抽樣框,純 手機用戶就是母體中被忽略的成員。 又在母體裡又在抽樣框裡的人之中,還有一些人,叫做拒答者。這些人也蠻難處理的, 但一方面他們不是這次爭論的核心、二方面在選舉這種情境下拒答者恐怕也相對較少, 所以我們先不管吧。到最後,一個抽樣框裡,扣掉不屬於母體的成員、扣掉拒答者,剩 下來的那一塊,就叫做「抽樣母體」。 問卷調查的對象,那些一個一個真的填了問卷 的人,也就是我們的樣本,是從這個抽樣母體裡隨機抽出來的,不是從母體裡隨機抽出 來的。 樣本是從哪裡隨機抽出來的,樣本就代表誰。 賴清德那句話錯就錯在這裡。在一切都盡善盡美超科學超嚴謹的情況下,樣本可以代表 抽樣母體,但不能代表母體。抽樣母體與母體間的距離包括兩種人,一種是拒答者,一 種是一開始就被抽樣框忽略掉的母體成員。從抽樣母體中隨機抽選的樣本,不能代表這 兩種人。 所以,這兩種人,原則上都是我們永遠無法研究、無法推估的,尤其是一開始就被抽樣 框跳過不管的那些人。所以選擇抽樣框的基本原則,就是在其它條件(如成本)類似下, 盡可能讓抽樣框和母體越重疊越好,以減少遺漏。 手機民調和市話民調,哪個抽樣框比較趨近母體,這應該很明顯吧? ◇◇◇ 當賴清德說樣本可以代表母體的時候,他在描述的其實是一種理想狀態,一種「抽樣框 母體重疊」的狀態。 然後他現在的主張是要把抽樣框搞得越小越好、和母體差距越遠越好。 這就是他所謂的嚴謹的科學依據嗎? ◇◇◇ 很不幸地,這只是他的第一個問題。 我說的不幸指的是我自己很不幸。為了一個我實在沒什麼興趣的人寫這麼長的文章, 我好不幸。 賴清德的第二個問題是,他認為可以用加權的方式解決年輕人接不到電話的問題。 加權是在做問卷調查的時候常用的方法,作法也的確就如賴清德所說的,如果樣本裡 年輕人佔的比重小於母體中年輕人佔的比重,就給年輕人加點權重,讓樣本的人口結構 符合母體的人口結構。 更直觀點講,加權這件事是這樣的:我們發現我們抽樣回來的年輕人跟母體裡的年輕人 比起來太少了,我們就以我們抽回來的這些年輕人為基礎,複製一些年輕人出來,直到 年輕人在樣本裡的比重和在母體一致為止。 這樣做的主要目的是要讓樣本的人口結構趨近於母體的人口結構,而不是把被抽樣框排 除掉的人找回來。要做到後者,必須先假設:樣本裡的這些年輕人,和被抽樣框排除掉 的那些年輕人是類似的,所以你可以用前者的複製人代替後者。 反過來說,我們必須假設抽樣框一開始排除那些年輕人,是隨機排除的。 如果我們用市話做抽樣框,我們能做這樣的假設嗎?不行。因為這些被排除的年輕人不 是隨機被排除的,他們是因為沒有市話所以被排除的。 沒有市話的年輕人,和有市話的年輕人,是同一種年輕人嗎?我認為不是。有許多人主 張,年輕的租屋者是主要的「沒有市話」的族群;而在這群人身上,兩條形構當代台灣 社會主要社會矛盾的線,剛好交會在一起:城鄉與階級。一般來說,年輕租屋者更有可 能是離家來到都會區工作的城鄉流動者,而非父母就住在都會區、自己也在都會區長大 的年輕人;另一方面,年輕租屋者與年輕購屋者之間,也無可避免地存在著一條階級界 線。 換句話說,我們看看台灣社會的年輕人的一般樣貌,會發現不同類型的年輕人身處在市 話這個抽樣框的內外。在市話抽樣框的外面,是離鄉背井到大城市工作,買不起房子的 年輕人;在抽樣框的內部,是要嘛在大城市長大現今與父母同住、或者乾脆就自己買了 房子的年輕人。 然後今天賴清德說我們抽不到那些離鄉背井買不起房子的年輕人,沒關係,我們就複製 幾個從小在都會區長大,或者自己買了房子的年輕人,用這些複製人來代替那些被排除 的年輕人好了。 賴清德敢講這種話,我不敢。 摸著研究法講義也不敢,摸著良心也不敢。 ◇◇◇ 我猜這是我開站以來寫過最長的文章了吧。不過我沒算字數,是用疲倦與沮喪的程度 來估計的。 我一開始就說過我蠻不喜歡寫賴清德的,但是這件事我不得不寫。寫這麼長這麼囉嗦, 大概也不會有人看,但是我覺得這件事很重要,不能不寫。 我這輩子跟民進黨沒什麼瓜葛,所以也沒特別關注他們的初選。然而我跟研究法瓜葛 倒是不少,身為一個學術宅,我希望大家不要再扯陰謀論或是歷年初選的陳規了。做 民調,就是要知道人民在想什麼。抽樣框越貼近母體越好,這不是挺簡單的道理嗎? ◇◇◇ 學術宅的話說完了。身為一個打油詩人,我卻還有幾句話。 我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。它是這麼說的: 「母體裡的任一個體,有相同的機率被選進樣本裡。」 這難道不是某種對「民主」或是「平等」的隱喻嗎? 而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎? 我們只是希望,我們也有相同的機率,被選進樣本裡。 我們只是希望,我們也能說出我們要什麼。 這,有,很,難,理,解,嗎? 取自:[臉書] 發達資本主義時代的打油詩人 https://tinyurl.com/FuckDuckTsaiBeatOilPoet -- ☑低調 ☑認真 ☑平凡 ☑規律 ☑踏實 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.128.162 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1557277249.A.051.html ※ 編輯: shamdoer (1.173.128.162), 05/08/2019 09:02:33

05/08 09:05, 5年前 , 1F
一看就知道是文組的
05/08 09:05, 1F

05/08 09:06, 5年前 , 2F
很詳盡
05/08 09:06, 2F

05/08 09:07, 5年前 , 3F
金孫讀的公共衛生也要修統計啦 念得比文組差真見笑
05/08 09:07, 3F

05/08 09:09, 5年前 , 4F
比賽中改規則?
05/08 09:09, 4F
dpp這次初選規則是便宜行事,想說沒人要出來跟小英競選, 就原封不動從上屆搬到這借來用,沒想到跑出金孫程咬金, 應該亡羊補牢讓初選規定更周延一些。 噓 bluegold: 你知道一個人可以有很多手機門號嗎 05/08 09:11

05/08 09:11, 5年前 , 5F
這種三流的文章也轉來?
05/08 09:11, 5F
呵呵 你統計學分數很高齁?

05/08 09:12, 5年前 , 6F
到時後變預付卡大戰 特定電信業者變出幾百萬個幽靈號碼
05/08 09:12, 6F

05/08 09:12, 5年前 , 7F
05/08 09:12, 7F

05/08 09:14, 5年前 , 8F
如果讓手機加入抽樣母體民調能更好 先提具體方式防弊 說
05/08 09:14, 8F

05/08 09:14, 5年前 , 9F
服人
05/08 09:14, 9F

05/08 09:17, 5年前 , 10F
先談防作弊,再談公平性
05/08 09:17, 10F
目前規定是每人最多可以申請五門門號, 短期內很難去生出那麼多新門號,去影響整個民調抽樣的準確性。 而提出這質疑的人,應該先捫心自問: 用家戶電話進行民調的這個抽樣框會篩選掉多少只有手機門號的選民, 先談舊弊並,再談公平性。

05/08 09:18, 5年前 , 11F
講一堆長篇大論也沒解出質疑 與廢文無異
05/08 09:18, 11F

05/08 09:18, 5年前 , 12F
楊憲宏說接聽手機民調可能在開車或走路,實際上不難解決, 先簡訊通知之類都可以解決。 但是家戶電話的侷限性,只講以往2600局碼只抽700局碼來抽樣, 根本沒講到家戶電話對母體代表性不足的問題, 而且,他們沒有講到預付卡門號一人最多只能申請五門, 要用人頭灌水根本沒那麼簡單,更何況短時間內去哪裡生那麼多人頭門號?

05/08 09:22, 5年前 , 13F
理想的民調 能抽樣反映真實風向 無論用什麼方法都不是問
05/08 09:22, 13F

05/08 09:22, 5年前 , 14F
題 要先說服有新方法更好更準 重點不在對誰有利 是爭議
05/08 09:22, 14F

05/08 09:22, 5年前 , 15F
少 讓各方支持者心服才不會分裂
05/08 09:22, 15F

05/08 09:23, 5年前 , 16F
手機民調那麼好,那立委怎麼不早用?
05/08 09:23, 16F

05/08 09:24, 5年前 , 17F
手機民調那麼好 要
05/08 09:24, 17F

05/08 09:24, 5年前 , 18F
怎麼不改所有公職適用?
05/08 09:24, 18F
手機民調的 必要性可行性(抽樣技巧)不是同一件事, 這篇文只談手機民調的必要性就寫這麼長了, 很難奢求他/她完整寫出全套的解決方案,因為這樣就跟廢文無異嘛?

05/08 09:24, 5年前 , 19F
立委初選怎麼不用,比賽到一半才改規則
05/08 09:24, 19F
金孫背刺,見招拆招。

05/08 09:25, 5年前 , 20F
是不好理解 你是在裝作不知道有些人有2個門號的嗎
05/08 09:25, 20F

05/08 09:25, 5年前 , 21F
至少 這篇講的統計抽驗知識是正確的
05/08 09:25, 21F

05/08 09:25, 5年前 , 22F
好弱
05/08 09:25, 22F

05/08 09:27, 5年前 , 23F
即使有人兩個門號 抽到同一人所屬的兩門號機率不高
05/08 09:27, 23F

05/08 09:27, 5年前 , 24F
我統計不用很高分啦 我用膝蓋想也知道 手機民調你要
05/08 09:27, 24F

05/08 09:27, 5年前 , 25F
怎麼分層分區抽?難不成你要簡單隨機抽亂數?你那麼的
05/08 09:27, 25F

05/08 09:27, 5年前 , 26F
你那來的選舉人資料庫?
05/08 09:27, 26F

05/08 09:30, 5年前 , 27F
市話民調有電話簿, 手機民調你資料怎麼來的?要和背景
05/08 09:30, 27F

05/08 09:30, 5年前 , 28F
資料連結沒有個資法問題?只有號碼你怎樣隨機抽?
05/08 09:30, 28F
手機民調的隨機抽樣技巧,據我所知現在只有三個人知道, 其中一個不是我,所以我沒辦法告訴你。 但是你的咖逃嗚沒有告訴你? 不要拿家戶電話的隨機抽樣特性,拿來要求手機民調嘛? 不要拿手機民調隨機抽樣技巧的困難度問題, 拿來反駁一篇強調手機民調必要性的文章好嘛? 不好做、很難做到隨機抽樣,就都不用開始做了嘛? 總歸一句,還是要怪金孫看到DPP黨內因循苟且的初選規定,有機可趁。 違背他在行政院長任內說的支持小英選2020的承諾, 說什麼他要選擇承擔,所以要參加初選, 才害大家現在急急忙忙在爭論要不要/怎麼把手機加入民調抽樣。

05/08 09:30, 5年前 , 29F
糞文
05/08 09:30, 29F
又臭又長( )*( )~~~

05/08 09:31, 5年前 , 30F
當有複數人口有2個以上門號時, 你抽樣的方式夠隨機嗎
05/08 09:31, 30F

05/08 09:32, 5年前 , 31F
?當有2個以上門號的人口是集中在都市時, 產生的bias
05/08 09:32, 31F

05/08 09:32, 5年前 , 32F
你怎麼校正? 要戰統計是不是?來戰啊
05/08 09:32, 32F

05/08 09:32, 5年前 , 33F
手機電話簿找電信業者一定都有啦 亂數抽就好了
05/08 09:32, 33F

05/08 09:32, 5年前 , 34F
照這篇的想法 門號多的人被抽到的機率就是比較高
05/08 09:32, 34F

05/08 09:34, 5年前 , 35F
市話電話可以分層分區抽, 手機號碼無法. 手機要分層分
05/08 09:34, 35F

05/08 09:34, 5年前 , 36F
區抽, 你就得有持有人的背景資料, 這有沒有個資法的問
05/08 09:34, 36F

05/08 09:34, 5年前 , 37F
題?
05/08 09:34, 37F

05/08 09:35, 5年前 , 38F
以中華電信為例 客戶數1000萬 你即使有三個門號 3/1000萬
05/08 09:35, 38F

05/08 09:35, 5年前 , 39F
手機比市話價錢貴吧
05/08 09:35, 39F

05/08 09:35, 5年前 , 40F
的機率比千萬分之一 乾 有差嗎
05/08 09:35, 40F

05/08 09:38, 5年前 , 41F
你只算一個人當然沒差,有多少人口有2個以上的門號?
05/08 09:38, 41F

05/08 09:39, 5年前 , 42F
他的居住地如果是集中在城市呢?如果是集中在台北這種偏
05/08 09:39, 42F

05/08 09:40, 5年前 , 43F
藍的城市呢? 你累積的bias有多少?怎麼矯正?
05/08 09:40, 43F

05/08 09:41, 5年前 , 44F
而且目前的做法從歷年資料看起來也沒不準到哪裡去
05/08 09:41, 44F

05/08 09:42, 5年前 , 45F
好 就算有城市bias 也比抽樣母體缺乏手機族的bias小
05/08 09:42, 45F

05/08 09:42, 5年前 , 46F
完全不準有印象的就是胖周瑜贏五隻羊那次
05/08 09:42, 46F

05/08 09:43, 5年前 , 47F
時代在變 歷年資料也看不出來1124會大敗的黑天鵝
05/08 09:43, 47F

05/08 09:43, 5年前 , 48F
其他的要說不準都只是在得票率鑽牛角尖
05/08 09:43, 48F

05/08 09:43, 5年前 , 49F
05/08 09:43, 49F

05/08 09:44, 5年前 , 50F
賴繼不要勞工的票之後 年輕人的票也不要了嗎
05/08 09:44, 50F

05/08 09:45, 5年前 , 51F
排除年輕人為主的手機族 之後怎麼說服年輕人投你?
05/08 09:45, 51F

05/08 09:45, 5年前 , 52F
要不要年輕人的票是政策的問題,改變民調方式不會年輕人
05/08 09:45, 52F

05/08 09:46, 5年前 , 53F
你不想聽到我們的聲音嗎?
05/08 09:46, 53F

05/08 09:46, 5年前 , 54F
你覺得我們很討厭你嗎?
05/08 09:46, 54F

05/08 09:47, 5年前 , 55F
的票就無中生有. 再者, 臨時變更遊戲規則已要很要不得了
05/08 09:47, 55F

05/08 09:47, 5年前 , 56F
去年的封關民調大多家的民調都和選舉結果一樣
05/08 09:47, 56F

05/08 09:49, 5年前 , 57F
拿再來官冕堂皇的理由,也無法遮掩他帶來的傷害
05/08 09:49, 57F

05/08 09:51, 5年前 , 58F
算了 不想要我們的支持以後DPP初選的文不會再關切
05/08 09:51, 58F

05/08 09:53, 5年前 , 59F
@abram 有空去看個電影 脫歐之戰
05/08 09:53, 59F

05/08 10:16, 5年前 , 60F
推!把沒有市話的年輕人排除在外 本來就很愚蠢
05/08 10:16, 60F

05/08 10:19, 5年前 , 61F
你要講科學,就不要裝文青,事實上就是現在做手機民調的抽
05/08 10:19, 61F

05/08 10:19, 5年前 , 62F
樣母體會有問題,你想要列入手機民調,早800年前就該準播,
05/08 10:19, 62F

05/08 10:20, 5年前 , 63F
而不是針對賴清德一個人
05/08 10:20, 63F
也要感謝金孫趁虛背刺,手機民調的重要性才能被大家認真討論。

05/08 10:43, 5年前 , 64F
總統全民調 無區域性較沒有母體問題
05/08 10:43, 64F
※ 編輯: shamdoer (1.173.128.162), 05/08/2019 11:26:47

05/08 11:44, 5年前 , 65F
程序正義你知不知道?手機民調就請黨內專家好好研究,下次
05/08 11:44, 65F

05/08 11:44, 5年前 , 66F
採用
05/08 11:44, 66F

05/08 11:46, 5年前 , 67F
沒有經過長期測試和修正的模型是不應該上線的。何況這還要
05/08 11:46, 67F

05/08 11:46, 5年前 , 68F
推翻先前初選登記當時適用的民調模型
05/08 11:46, 68F

05/08 11:47, 5年前 , 69F
你的意見可以等初選完去找羅文嘉,他會很開心聽你講
05/08 11:47, 69F

05/08 11:52, 5年前 , 70F
賴和楊只是說手機民調也是有些問題要好好處理,不要匆促上線
05/08 11:52, 70F

05/08 11:52, 5年前 , 71F
。就算是民調專家已經可以提模型,也不可能不測試確認並防
05/08 11:52, 71F

05/08 11:52, 5年前 , 72F
弊。難道總統初選和大選就再延等手機民調上線?
05/08 11:52, 72F
文章代碼(AID): #1SqYf11H (Gossiping)
討論串 (同標題文章)
以下文章回應了本文
完整討論串 (本文為第 8 之 12 篇):
文章代碼(AID): #1SqYf11H (Gossiping)