Re: [問題] 變項的時間跨度(time span)問題

看板Statistics作者 (撼動宇宙的第一小步)時間10年前 (2015/03/06 06:57), 10年前編輯推噓0(0081)
留言81則, 2人參與, 最新討論串3/3 (看更多)
我昨晚再仔細想一想 發現癥結點於我的驗證邏輯和人不太一樣: 1. "檢驗因果關係"的邏輯: 所謂的統計分析就是檢驗:自變數 是否真的影響到 依變數 自變數 是否真的是造成 依變數 的 原因 而自變數是因,所以時間一定要在前 依變數是果,所以時間一定要在後 兩者的時間跨度要一樣 2. "驗證某個現象"的邏輯: 學者提出某個論述(現象): 成績好的同學,參與班會的次數比較高(踴躍) 這裡要檢驗的是前述現象是否真的存在? 至於因果關係(成績是否影響班會)則不是文章要討論的重點 雖然這裡有自變項與依變項 但那只是因為在學者的論述中 "成績"放在前頭(成績好中壞三組),所以掛上自變 "班會"放在後面(參與班會的次數),所以稱之依變 然而,研究要探討的僅是:成績好中壞這三組間到底有無顯著差異? 至於"班會的參與資料"則是用來統計比較這三組的差異而已 研究主題並沒有去處理"成績有無影響到班會"這樣的因果議題 我的疑惑是 這兩種邏輯在統計研究上有沒有差別? 是否可以這樣做區分? 還是說,只要是統計研究,就必須只能是1,而不能用2的邏輯? 另外 如果是1的邏輯,那當然必須是 今年的成績 影響到 今年的班會 才能說班會是成績影響下的結果 但如果是2的邏輯 我只是想利用ANOVA的組別比較來驗證以下"現象"是不是真的存在: 成績好是不是真的就比較常參與班會?成績不好就顯著比較少? 我的結論並沒有做出因果關係推論(即 成績 確實是 班會 的原因) 只是想知道這個現象有無出現?(成績好有沒有顯著較常參加班會?) 若是2的話 有沒有必要一定得服膺嚴格的因果關係規定, 自變數和依變數的時間跨度一定得要相同呢? ANOVA只能用來驗證因果關係嗎?ANOVA做出來的結果即表示變數有因果關係嗎? 希望各位版友能再給我意見 萬分感謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 112.105.52.36 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1425596246.A.B45.html

03/06 09:25, , 1F
你對"因果"的認知 在方法論上來說實在有點薄弱....
03/06 09:25, 1F

03/06 09:25, , 2F
因果 是很嚴謹的機制,須達成特定條件
03/06 09:25, 2F

03/06 09:28, , 3F
因果關係 須滿足 時間律、共變律、排它律 三個條件
03/06 09:28, 3F

03/06 09:29, , 4F
統計分析 如果分析A→B有影響 A就真的是B的因嗎?
03/06 09:29, 4F

03/06 09:30, , 5F
反之 如果分析B→A也有效果 那要說明誰為因?誰為果?
03/06 09:30, 5F

03/06 09:31, , 6F
以你的例子來說 今年成績 會影響 今年活動積極度
03/06 09:31, 6F

03/06 09:32, , 7F
倘若反過來 今年的活動積極度 也影響 今年的成績呢?
03/06 09:32, 7F
感謝C大的回應 您剛好點出我最為難且疑惑的地方 所謂的因果關係如你說的,要共變、因在果之前、非虛假關係 這是很嚴格的條件 即使有影響也未必就有因果關係 變數可能相互影響,或根本沒有因果 可是,我遇到某些人就是主張: 統計只能有1的邏輯,其他都不能 統計就只能判定自變數能否影響依變數?是不是成因? 其他都不算統計 我也覺得這種說法有點怪 但又想不出如何說明它的瑕疵

03/06 09:33, , 8F
至於 統計技術的問題 ANOVA檢驗的是差異性
03/06 09:33, 8F

03/06 09:34, , 9F
迴歸方法 檢驗的是解釋力(或預測性)
03/06 09:34, 9F
恩,我的理解是這樣: 即使ANOVA做出來組別間有顯著差異 那也只能代表這個差異性的現像是存在的 不表示自變數和依變數必然有因果關係,所以不能妄下因果關係的結論 這樣的理解正確嗎??

03/06 09:35, , 10F
套一句我的方法學啟蒙老師所言:
03/06 09:35, 10F

03/06 09:36, , 11F
「單靠統計工具是無法檢驗因果的,須搭配理論基礎」
03/06 09:36, 11F

03/06 09:38, , 12F
回到本文 您所述的邏輯一or邏輯二 都有暇疵
03/06 09:38, 12F

03/06 09:39, , 13F
而且 量化研究中也不存在這麼特殊的說法
03/06 09:39, 13F

03/06 09:40, , 14F
或者是說 量化研究的邏輯也不是這樣子來陳述的
03/06 09:40, 14F

03/06 09:42, , 15F
所以再回到「時間跨度」的問題
03/06 09:42, 15F

03/06 09:43, , 16F
如果 理論、邏輯、實證 都說明兩個不同跨度的變項間
03/06 09:43, 16F

03/06 09:43, , 17F
具有因果關係 那又何嘗不可分析?
03/06 09:43, 17F
嘆 可惜我沒能力可以反駁邏輯1的看法

03/06 09:44, , 18F
但反之,如果都解釋不通時,分析又有何意義?
03/06 09:44, 18F

03/06 09:45, , 19F
只是多一篇數字遊戲的文章而已,不是嗎?
03/06 09:45, 19F
我另外想到一個問題點: 1. 常走實驗、問卷路線的學者 習慣的做法就是:分好組別後,然後進行實驗或填寫問卷 之後再進行統計,分析自變項有無影響依變項 這樣一來,自變數(分組)的時間在前,依變數(實驗、問卷)時間在後 就成為共同的認知:時間在前的一定是自變項, 時間在後的一定是依變項 依變項的時間不能早於自變項 這樣自變項才算有影響依變項 2. 但我這領域的主要單位是 國家 很難用實驗、問卷來研究 很多人用的方式是:為國家分好組別之後 再回過頭去找每個國家的歷史數據 統計分析組別間有無差異,驗證現象有無存在 分析的重點不在 自變與依變的因果關係 而是"不同組的國家"在"參與次數上到底有無顯著差異"?? 另外,就好比之前文中的舉例: 雖然把"成績好壞"列為自變項,"參與班會的數量"列為依變項 但那只是因為學者的論述提及: 成績好的學生對於參與班會的次數會比較高 這段論述把"成績"放前面,"班會"放後面 基於使用習慣 所以在統計分析時才把前者稱為自變項,後者稱為依變項 但這兩者到底有無因果關係?成績是否真的會影響班會? 這不是我要分析的重點 我只是想知道學者論述的這個"現象"到底存不存在? "成績由好至壞的組別"在參與班會的次數上有無顯著差異? 重點是"成績好中壞三組間的差異" 至於"班會"只是用來幫助統計比較這三組的一個變項罷了 如果ANOVA的結果顯示組別有顯著差異+成績好的高於其他組 那表示這個現象是存在的 但ANOVA的結果不表示"成績"和"班會"有直接的因果關係 因此 雖然把"成績"名為自變項,"參與班會"名為依變項 但這兩者並不是傳統的"自變項影響依變項"的關係 純粹只是因為"成績"在前,"班會"在後 才把前面的掛為自變,後面掛為依變 但實際上研究要討論的只是:"成績"的組別之間有無顯著差異 並無牽涉到"成績是否影響班會"...這個主題 這是我想表達的 但我不知道在統計上要用啥詞彙去指稱 所以只能用我自己的話去形容 希望大家聽懂我在說啥.....= = ※ 編輯: winchin (112.105.52.36), 03/06/2015 14:19:42

03/06 15:04, , 20F
反例: Y=3*x1+1*x2 (線性回歸), Var(x1)=0.01, Var(x2)=1
03/06 15:04, 20F

03/06 15:05, , 21F
x1變動時會讓Y大量變動(顯著)
03/06 15:05, 21F

03/06 15:06, , 22F
但Y變動量 大部分是x2造成的(因為x2的Var大)
03/06 15:06, 22F

03/06 15:22, , 23F
如果討論的是"不同組的國家" 之間比較 硬要用回歸
03/06 15:22, 23F

03/06 15:23, , 24F
是可以考慮地理統計對空間的Cov做回歸
03/06 15:23, 24F

03/06 15:23, , 25F
不過這樣做出來不是你的目標
03/06 15:23, 25F

03/06 15:26, , 26F
以這幾篇看下來 ANOVA可能是比較好的方式
03/06 15:26, 26F

03/06 15:29, , 27F
不過我很想問為什麼不直接算相關係數?
03/06 15:29, 27F

03/06 15:37, , 28F
等等 這裡有三個變量 國家 成績 班會
03/06 15:37, 28F

03/06 15:40, , 29F
"成績"的組別之間(什麼變量?)有無顯著差異
03/06 15:40, 29F

03/06 15:43, , 30F
"不同組的國家"在"參與次數上到底有無顯著差異"與分數無關?
03/06 15:43, 30F

03/06 16:01, , 31F
這三個變量你想怎麼表達之間的關係 之後再決定統計方法
03/06 16:01, 31F
抱歉 W大 上頭我把兩個例子混在一起講了,造成你的誤解 國家那個是一個例子 成績則是另一個例子 我再重新改寫整理一下 ※ 編輯: winchin (112.105.52.36), 03/06/2015 18:43:13 ※ 編輯: winchin (112.105.52.36), 03/06/2015 18:56:04 ※ 編輯: winchin (112.105.52.36), 03/06/2015 18:57:55

03/06 23:07, , 32F
其實 閱讀你的說法 我會產生一點疑問....
03/06 23:07, 32F

03/06 23:08, , 33F
倘若只是單純想驗證 成績→活動參與 關係是否確立
03/06 23:08, 33F

03/06 23:08, , 34F
而並不在乎其是否為真實因果或虛假關係
03/06 23:08, 34F

03/06 23:09, , 35F
那你就直接進行迴歸預測就好阿 看解釋量有多高阿
03/06 23:09, 35F
感謝C大的回應 不過難題在於,成績這個變項並不是連續變數 而是分成三組的類別變項(成績好、中、差) 是可以把成績轉成虛擬變項 但這樣只能看到解釋量有多少 無法知道 成績好的組別之參與量是否顯著大於其他組

03/06 23:10, , 36F
如果達到統計顯著性 又有實務顯著性 那就驗證完畢了
03/06 23:10, 36F

03/06 23:10, , 37F
反之 如果"成績→活動參與"在過去研究被認為是因果
03/06 23:10, 37F

03/06 23:12, , 38F
而想推翻 最直觀就是驗證 活動參與→成績 是否成立
03/06 23:12, 38F

03/06 23:12, , 39F
如果 反向路徑也存在 那表示原本的關係並非因果阿
03/06 23:12, 39F

03/06 23:13, , 40F
另外 上面原po和w大的討論 我不曉得有沒有認知錯誤?
03/06 23:13, 40F

03/06 23:14, , 41F
如果要把三個變量:國家.成績.班會 同時分析....
03/06 23:14, 41F

03/06 23:15, , 42F
除了時間跨度的問題 你更應該考量hierarchy的問題吧
03/06 23:15, 42F

03/06 23:16, , 43F
這些變項擺一起 hierarchy的問題比時間跨度重要多了
03/06 23:16, 43F

03/07 03:58, , 44F
C大 其實我看得有點亂 成績與活動 我看不出放棄迴歸預測的
03/07 03:58, 44F

03/07 03:58, , 45F
理由
03/07 03:58, 45F

03/07 03:59, , 46F
再來 迴歸預測 可放入前人理論做非線性 迴歸預測
03/07 03:59, 46F

03/07 04:00, , 47F
第三 如果收到的資料非高斯場 還可以放棄高斯假設
03/07 04:00, 47F

03/07 04:10, , 48F
如果要做 非高斯+非線性+前人研究 的ANOVA 會出人命的(計算
03/07 04:10, 48F

03/07 04:10, , 49F
效率太差)
03/07 04:10, 49F

03/07 04:15, , 50F
如果3變量一起考慮 可以推估收不到資料國家的回歸線
03/07 04:15, 50F

03/07 04:18, , 51F
這時的統計與一般統計最大差異 從一個值 變成一個函數
03/07 04:18, 51F

03/07 04:23, , 52F
回到原Po的問題 時間跨度 一定可放入考慮 只是怎麼考慮而以
03/07 04:23, 52F
抱歉 我把話題拖得太長,讓大家看不清楚問題點 其實我說了這麼多,只是想了解一件事: 如果我是用邏輯2的角度來做研究 只想了解這三個成績組別間是否有顯著的差異 那變項的時間跨度是否一定要相同? 若前面的變項(成績好、中、差,名為自變項)是2013-2014 後面的變項(參與班會的次數,名為依變項)是2010-2014 在邏輯2裏頭,是否可行??

03/07 04:25, , 53F
在非線性高斯場依變數的cov 有個手法叫first order second m
03/07 04:25, 53F

03/07 04:25, , 54F
oment
03/07 04:25, 54F

03/07 04:26, , 55F
總是可以估計Cov的值
03/07 04:26, 55F

03/07 04:29, , 56F
而且對之前班會與之後班會的相關性都可抓出來
03/07 04:29, 56F

03/07 04:31, , 57F
最後 如果帶線性高斯場 Cov的比值就是迴歸係數的斜率
03/07 04:31, 57F

03/07 04:32, , 58F
除非前人有說就是線性相關 不然迴歸預測強太多了
03/07 04:32, 58F

03/07 04:35, , 59F
(跟課本上的Anova比)
03/07 04:35, 59F

03/07 04:46, , 60F
不知道原po有沒有考慮把前班會與後班會當成兩個事件(非獨立)
03/07 04:46, 60F

03/07 04:46, , 61F
這樣時間影響都可以抓出來
03/07 04:46, 61F

03/07 04:50, , 62F
不過原Po好像很喜歡Anova
03/07 04:50, 62F

03/07 04:51, , 63F
因為我對Anova不熟 所以不確定可以做到怎樣
03/07 04:51, 63F

03/07 05:03, , 64F
原po是想討論三變量中 兩兩的邊際機率密度函數嗎? 不然第三
03/07 05:03, 64F

03/07 05:03, , 65F
變量如何不看?
03/07 05:03, 65F

03/07 15:28, , 66F
我沒有說放棄迴歸阿!? 驗證因果關係 迴歸還是比較好
03/07 15:28, 66F

03/07 15:28, , 67F
我只是舉例用反向求迴歸結果 來否證因果阿
03/07 15:28, 67F

03/07 15:30, , 68F
當然 非線性也是檢驗方式 只是我們並不了解原po例子
03/07 15:30, 68F

03/07 15:30, , 69F
前人的研究是認為線性or非線性 所以 我提出用反向
03/07 15:30, 69F
其實,前人的研究只是提出一個"描述性的論述" 沒有用到量化分析 因此也沒提及線性或非線性之類的面向

03/07 15:31, , 70F
至於hierarchy 我以為原po還想把國家的變項放進來
03/07 15:31, 70F

03/07 15:31, , 71F
國家.活動.成績 這些變項的位階並不一樣吧~
03/07 15:31, 71F
痾....其實只有兩個變項 國家和成績是不同的例子....= = 一個是:不同組別的國家 和 參與量 另一個是:學生成績 和 學生的活動參與量 這是兩個例子 ※ 編輯: winchin (112.105.52.36), 03/08/2015 01:18:11 ※ 編輯: winchin (112.105.52.36), 03/08/2015 01:34:26

03/09 14:13, , 72F
把後面變項拆成 2010-1012 及 2013-2014
03/09 14:13, 72F

03/09 14:15, , 73F
然後與前面的變項分別做ANOVA -->去說明時間變量有關或無關
03/09 14:15, 73F

03/09 14:16, , 74F
若無關 再用後面變項2010-2014與前變量再做一次
03/09 14:16, 74F

03/09 14:17, , 75F
若有關-->就要加入其他的機制來考濾
03/09 14:17, 75F

03/09 14:19, , 76F
可是我的疑問是為什麼不直接算相關係數
03/09 14:19, 76F

03/09 14:20, , 77F
每年的相關性就都可以抓出來
03/09 14:20, 77F

03/09 14:23, , 78F
拿相關性最高的那年來做研究 不是更有說服力
03/09 14:23, 78F

03/09 14:25, , 79F
順便也可以得到隨時間的衰退
03/09 14:25, 79F

03/09 14:27, , 80F
隨時間的衰退如果做得出來 那跨度就著這個衰退比例給進去
03/09 14:27, 80F

03/09 14:30, , 81F
這樣論文應該會多出很多東西(如果成功做出來的話)
03/09 14:30, 81F
文章代碼(AID): #1K-DzMj5 (Statistics)
文章代碼(AID): #1K-DzMj5 (Statistics)