Re: [討論] 常見統計謬誤

看板PublicIssue作者 (Cython)時間11年前 (2014/07/10 23:10), 編輯推噓14(14034)
留言48則, 9人參與, 最新討論串2/2 (看更多)
首先必須說,這些東西很難說有標準答案,可能好幾個說法都說的通。 重要的是思考的過程。 : (1) 某某研究指出,美國加州的肺結核患者比例比其他州份為高。 這第一個例子可能就讓人覺得沒頭沒尾,莫名其妙。 加州的肺結核患者比例比其他州份為高,所以咧....?要表達什麼? 可是,有些新聞就是類似這種寫法。 寫這句話,真的完全沒有要傳達或是偷渡什麼訊息?那你寫了幹嘛? 是不是有些人看完之後就會自己腦補說「喔所以住在加州比較容易得肺結核」 (然後就算你去抗議說新聞造謠他們也可以名正言順的推掉,因為他們真的沒有寫啊) 要不被偷渡思想,還是得靠自己。 回到原題,那我們修改一下命題吧 美國加州的肺結核患者比例比其他州份為高,所以住在加州比較容易得肺結核 這句話對不對? 首先,必須先判斷加州的肺結核患者比例和其他州是不是有顯著差異。 因為本來肺結核就一定有些州比較多有些州比較低,可能只是隨機分布然後加州剛好 比較高。 (類似的笑話:某校長表示本校有50%學生成績低於平均,令人憂心...) 再來,假設加州的肺結核患者的確顯著的比較多,那也不一定代表題目的因果關係成立。 假如要讓這個說法有說服力一點,那應該要試著找出一些已知會造成肺結核的原因, 然後看加州有沒有這個因子。在還沒找到以前,這最多就只是一個猜想。 最後,這其實是倒果為因的例子,因為加州空氣比較乾淨,所以肺結核患者才會移居 加州.... : (2) 某某研究發現,腳掌較大的小孩比較聰明。 其實就是年紀比較大的小孩腳掌比較大,然後年紀大的小孩比較聰明些。 (七歲比一歲聰明不奇怪吧?) 不過,原本的研究可是說「腳掌較大的比較聰明」唷。 這個用詞又更令人迷惑.... : (3) 某某研究驚爆!長期吸煙人士患帕金森氏症的比例較非吸煙人士為低! 長期吸煙人士整體而言壽命較短,所以活不到帕金森氏症發病的時候。 所以坦白說,這個可以算是間接的因果關係,但是漏掉了中間的那一個環節。 長期吸煙 --> 壽命短 --> 患帕金森氏症比例低 : (4) 住居屋頂上有比較多鳥類棲息的家庭通常有比較多的小孩。 有比較多的小孩的家庭房子一般比較大,有比較大的房子屋頂就可以停比較多鳥。 不過這可能在歐美國家比較貼切。 : (5) 沒脫鞋就睡覺的人起床時比較容易頭痛。 因為沒脫鞋就睡覺的有一部分是喝醉的人,起床自然容易頭痛。 : (6) 自從1950年代開始,大氣中的二氧化碳含量和全球的肥胖人數就迅速上升。 當越來越多國家富裕起來的時候,排放的二氧化碳就可能更多。 當越來越多國家富裕起來的時候,肥胖的人就可能更多。 : (7) 晚上開燈睡覺的小孩比較容易近視。 這比較有爭議,過去的確有研究下了這個結論。而且這個研究結果是發表在Nature雜誌上 ,也有得到媒體的關注。 但是後來的一個研究找不出這兩者之間的因果關係,反而是發現父母近視比例和 小孩將來近視的機率有關。 http://researchnews.osu.edu/archive/nitelite.htm http://www.nature.com/nature/journal/v404/n6774/full/404143a0.html 最後他們得到的結論是: 父母近視的話小孩子也比較容易近視(可能是生活習慣問題) 然後 近視的父母比較習慣讓小孩開燈睡覺。 至於要相信哪一套說法,就看個人解讀了。 : (8) 這一百多年來,海盜的數量逐漸減少,而全球氣溫逐漸上升。 這應該是所有例子裏面聽起來最唬爛的。 是的,這目前看起來真的就只是巧合。 http://ppt.cc/CCh0 這也是英文wiki頁面說明"correlation does not imply causation"的例子之一 XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.226.204.42 ※ 文章網址: http://www.ptt.cc/bbs/PublicIssue/M.1405005056.A.A1F.html

07/10 23:13, , 1F
看統計數據的時候得要特別小心 其實不只是統記數據
07/10 23:13, 1F

07/10 23:13, , 2F
應該說被扭曲的數據都有欺騙的空間
07/10 23:13, 2F

07/10 23:14, , 3F
先不論有無造假 光錯誤引用就有可能造成誤導
07/10 23:14, 3F

07/10 23:18, , 4F
這話題很有意義
07/10 23:18, 4F

07/10 23:40, , 5F
推薦 邏輯即戰力、問對問題,找答案 這兩本書
07/10 23:40, 5F

07/10 23:44, , 6F
第一個例子可能有很多種解釋,因為該例子只提供盛行率
07/10 23:44, 6F

07/10 23:45, , 7F
所以你可能是新發個案比其他州要多,也可能治療的情況比較
07/10 23:45, 7F

07/10 23:45, , 8F
差,當然前面推文有人提到這些人也可是發病後才移居的外來
07/10 23:45, 8F

07/10 23:45, , 9F
人口。
07/10 23:45, 9F

07/10 23:46, , 10F
...這跟統計謬誤都無關阿 全都是邏輯謬誤阿 或滑坡謬誤
07/10 23:46, 10F

07/10 23:47, , 11F
統計你可以稍微分為統計前、中、後三個部分去探討
07/10 23:47, 11F

07/10 23:47, , 12F
不同時期有不同的地方不同的手段去"做手腳"
07/10 23:47, 12F

07/10 23:48, , 13F
目的只有一個 最終結果能夠輔助自己的論述期望 END
07/10 23:48, 13F

07/10 23:50, , 14F
總之我想說的是雖然錯誤的因果關係被歸類在統計誤用
07/10 23:50, 14F

07/10 23:51, , 15F
但是別忽略了要能夠量化為前提
07/10 23:51, 15F

07/10 23:52, , 16F
他這裡舉出的範例都是能夠量化研究的類型..
07/10 23:52, 16F

07/10 23:52, , 17F
滑坡謬誤跟這個有何關係?
07/10 23:52, 17F

07/10 23:53, , 18F
不知道。
07/10 23:53, 18F

07/10 23:54, , 19F
沒有類比其他類型,單一事件因果推論好像不能構成吧==
07/10 23:54, 19F

07/10 23:54, , 20F
這裡面有哪些是滑坡謬誤?
07/10 23:54, 20F

07/10 23:56, , 21F
不過比較需要被大眾知道的,我想代表性的問題,可比較性的
07/10 23:56, 21F

07/10 23:56, , 22F
問題,還有過度推論可能會是比較重要的部分。
07/10 23:56, 22F

07/10 23:57, , 23F
很多都滑坡謬誤阿 隨便看ㄧ個 3就是阿
07/10 23:57, 23F

07/10 23:57, , 24F
別忘了 不恰當的問題也是歸類於統計誤用
07/10 23:57, 24F

07/10 23:58, , 25F
3最好是滑坡謬誤XDDDD
07/10 23:58, 25F

07/10 23:58, , 26F
其實沒關係啦 我的重點只是想告訴你在"量化的過程"
07/10 23:58, 26F

07/10 23:58, , 27F
3是控制年齡和其他干擾因子以後得到的結果...
07/10 23:58, 27F

07/10 23:58, , 28F
才會導致統計誤用
07/10 23:58, 28F

07/10 23:59, , 29F
那你可以說是控制母群體為樣本數阿 直接導因果不是滑坡是啥
07/10 23:59, 29F

07/11 00:00, , 30F
控制母群體為樣本數→請問這是啥?
07/11 00:00, 30F

07/11 00:01, , 31F
3是真的有間接因果關係啊,哪是滑坡謬誤
07/11 00:01, 31F

07/11 00:02, , 32F
長期吸煙=>壽命短=>患帕金森氏症比例低 沒滑坡?
07/11 00:02, 32F

07/11 00:02, , 33F
我也不懂,統計沒這樣教過,書也沒寫。
07/11 00:02, 33F

07/11 00:03, , 34F
問題是這是的確成立的啊=.=
07/11 00:03, 34F

07/11 00:03, , 35F
滑坡是不同事件的類比,不是探討單一事件==
07/11 00:03, 35F

07/11 00:03, , 36F
怎麼會成立? 那不然統計幹麼搞個信賴區間?
07/11 00:03, 36F

07/11 00:04, , 37F
滑坡謬論是推論因果關係只是可能而非必然...
07/11 00:04, 37F

07/11 00:04, , 38F
那三個都是不同事件阿 有事嘛?
07/11 00:04, 38F

07/11 00:05, , 39F
但這個案例是你控制住年齡,你盛行率的差異就完全消失嚕..
07/11 00:05, 39F

07/11 00:06, , 40F
所以我說過了阿 你得要有量化為前提才能產生統計誤用 沒錯阿
07/11 00:06, 40F

07/11 00:06, , 41F
三的案例很明顯量化了阿...
07/11 00:06, 41F

07/11 00:06, , 42F
我的意思是他討論三個變數觀察的的因果關係為何。
07/11 00:06, 42F

07/11 00:07, , 43F
但是他得將因果關係形式邏輯套用才成立。
07/11 00:07, 43F

07/11 00:08, , 44F
那個例子是討論中介變數,怎麼會是套用因果關係?
07/11 00:08, 44F

07/11 00:41, , 45F
垃圾等級的研究,統計也沒意義
07/11 00:41, 45F

07/11 00:46, , 46F
喔。
07/11 00:46, 46F

07/11 07:35, , 47F
深入討論可左轉統計板...XD Statistics
07/11 07:35, 47F

07/11 09:16, , 48F
07/11 09:16, 48F
文章代碼(AID): #1Jlgq0eV (PublicIssue)
討論串 (同標題文章)
文章代碼(AID): #1Jlgq0eV (PublicIssue)