Re: [問題] 變項的時間跨度(time span)問題
我昨晚再仔細想一想
發現癥結點於我的驗證邏輯和人不太一樣:
1. "檢驗因果關係"的邏輯:
所謂的統計分析就是檢驗:自變數 是否真的影響到 依變數
自變數 是否真的是造成 依變數 的 原因
而自變數是因,所以時間一定要在前
依變數是果,所以時間一定要在後
兩者的時間跨度要一樣
2. "驗證某個現象"的邏輯:
學者提出某個論述(現象):
成績好的同學,參與班會的次數比較高(踴躍)
這裡要檢驗的是前述現象是否真的存在?
至於因果關係(成績是否影響班會)則不是文章要討論的重點
雖然這裡有自變項與依變項
但那只是因為在學者的論述中
"成績"放在前頭(成績好中壞三組),所以掛上自變
"班會"放在後面(參與班會的次數),所以稱之依變
然而,研究要探討的僅是:成績好中壞這三組間到底有無顯著差異?
至於"班會的參與資料"則是用來統計比較這三組的差異而已
研究主題並沒有去處理"成績有無影響到班會"這樣的因果議題
我的疑惑是
這兩種邏輯在統計研究上有沒有差別?
是否可以這樣做區分?
還是說,只要是統計研究,就必須只能是1,而不能用2的邏輯?
另外
如果是1的邏輯,那當然必須是 今年的成績 影響到 今年的班會
才能說班會是成績影響下的結果
但如果是2的邏輯
我只是想利用ANOVA的組別比較來驗證以下"現象"是不是真的存在:
成績好是不是真的就比較常參與班會?成績不好就顯著比較少?
我的結論並沒有做出因果關係推論(即 成績 確實是 班會 的原因)
只是想知道這個現象有無出現?(成績好有沒有顯著較常參加班會?)
若是2的話
有沒有必要一定得服膺嚴格的因果關係規定,
自變數和依變數的時間跨度一定得要相同呢?
ANOVA只能用來驗證因果關係嗎?ANOVA做出來的結果即表示變數有因果關係嗎?
希望各位版友能再給我意見
萬分感謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 112.105.52.36
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1425596246.A.B45.html
→
03/06 09:25, , 1F
03/06 09:25, 1F
→
03/06 09:25, , 2F
03/06 09:25, 2F
→
03/06 09:28, , 3F
03/06 09:28, 3F
→
03/06 09:29, , 4F
03/06 09:29, 4F
→
03/06 09:30, , 5F
03/06 09:30, 5F
→
03/06 09:31, , 6F
03/06 09:31, 6F
→
03/06 09:32, , 7F
03/06 09:32, 7F
感謝C大的回應
您剛好點出我最為難且疑惑的地方
所謂的因果關係如你說的,要共變、因在果之前、非虛假關係
這是很嚴格的條件
即使有影響也未必就有因果關係
變數可能相互影響,或根本沒有因果
可是,我遇到某些人就是主張:
統計只能有1的邏輯,其他都不能
統計就只能判定自變數能否影響依變數?是不是成因?
其他都不算統計
我也覺得這種說法有點怪
但又想不出如何說明它的瑕疵
→
03/06 09:33, , 8F
03/06 09:33, 8F
→
03/06 09:34, , 9F
03/06 09:34, 9F
恩,我的理解是這樣:
即使ANOVA做出來組別間有顯著差異
那也只能代表這個差異性的現像是存在的
不表示自變數和依變數必然有因果關係,所以不能妄下因果關係的結論
這樣的理解正確嗎??
→
03/06 09:35, , 10F
03/06 09:35, 10F
→
03/06 09:36, , 11F
03/06 09:36, 11F
→
03/06 09:38, , 12F
03/06 09:38, 12F
→
03/06 09:39, , 13F
03/06 09:39, 13F
→
03/06 09:40, , 14F
03/06 09:40, 14F
→
03/06 09:42, , 15F
03/06 09:42, 15F
→
03/06 09:43, , 16F
03/06 09:43, 16F
→
03/06 09:43, , 17F
03/06 09:43, 17F
嘆 可惜我沒能力可以反駁邏輯1的看法
→
03/06 09:44, , 18F
03/06 09:44, 18F
→
03/06 09:45, , 19F
03/06 09:45, 19F
我另外想到一個問題點:
1. 常走實驗、問卷路線的學者
習慣的做法就是:分好組別後,然後進行實驗或填寫問卷
之後再進行統計,分析自變項有無影響依變項
這樣一來,自變數(分組)的時間在前,依變數(實驗、問卷)時間在後
就成為共同的認知:時間在前的一定是自變項,
時間在後的一定是依變項
依變項的時間不能早於自變項
這樣自變項才算有影響依變項
2. 但我這領域的主要單位是 國家
很難用實驗、問卷來研究
很多人用的方式是:為國家分好組別之後
再回過頭去找每個國家的歷史數據
統計分析組別間有無差異,驗證現象有無存在
分析的重點不在 自變與依變的因果關係
而是"不同組的國家"在"參與次數上到底有無顯著差異"??
另外,就好比之前文中的舉例:
雖然把"成績好壞"列為自變項,"參與班會的數量"列為依變項
但那只是因為學者的論述提及:
成績好的學生對於參與班會的次數會比較高
這段論述把"成績"放前面,"班會"放後面
基於使用習慣
所以在統計分析時才把前者稱為自變項,後者稱為依變項
但這兩者到底有無因果關係?成績是否真的會影響班會?
這不是我要分析的重點
我只是想知道學者論述的這個"現象"到底存不存在?
"成績由好至壞的組別"在參與班會的次數上有無顯著差異?
重點是"成績好中壞三組間的差異"
至於"班會"只是用來幫助統計比較這三組的一個變項罷了
如果ANOVA的結果顯示組別有顯著差異+成績好的高於其他組
那表示這個現象是存在的
但ANOVA的結果不表示"成績"和"班會"有直接的因果關係
因此
雖然把"成績"名為自變項,"參與班會"名為依變項
但這兩者並不是傳統的"自變項影響依變項"的關係
純粹只是因為"成績"在前,"班會"在後
才把前面的掛為自變,後面掛為依變
但實際上研究要討論的只是:"成績"的組別之間有無顯著差異
並無牽涉到"成績是否影響班會"...這個主題
這是我想表達的
但我不知道在統計上要用啥詞彙去指稱
所以只能用我自己的話去形容
希望大家聽懂我在說啥.....= =
※ 編輯: winchin (112.105.52.36), 03/06/2015 14:19:42
→
03/06 15:04, , 20F
03/06 15:04, 20F
→
03/06 15:05, , 21F
03/06 15:05, 21F
→
03/06 15:06, , 22F
03/06 15:06, 22F
→
03/06 15:22, , 23F
03/06 15:22, 23F
→
03/06 15:23, , 24F
03/06 15:23, 24F
→
03/06 15:23, , 25F
03/06 15:23, 25F
→
03/06 15:26, , 26F
03/06 15:26, 26F
→
03/06 15:29, , 27F
03/06 15:29, 27F
→
03/06 15:37, , 28F
03/06 15:37, 28F
→
03/06 15:40, , 29F
03/06 15:40, 29F
→
03/06 15:43, , 30F
03/06 15:43, 30F
→
03/06 16:01, , 31F
03/06 16:01, 31F
抱歉 W大
上頭我把兩個例子混在一起講了,造成你的誤解
國家那個是一個例子
成績則是另一個例子
我再重新改寫整理一下
※ 編輯: winchin (112.105.52.36), 03/06/2015 18:43:13
※ 編輯: winchin (112.105.52.36), 03/06/2015 18:56:04
※ 編輯: winchin (112.105.52.36), 03/06/2015 18:57:55
→
03/06 23:07, , 32F
03/06 23:07, 32F
→
03/06 23:08, , 33F
03/06 23:08, 33F
→
03/06 23:08, , 34F
03/06 23:08, 34F
→
03/06 23:09, , 35F
03/06 23:09, 35F
感謝C大的回應
不過難題在於,成績這個變項並不是連續變數
而是分成三組的類別變項(成績好、中、差)
是可以把成績轉成虛擬變項
但這樣只能看到解釋量有多少
無法知道 成績好的組別之參與量是否顯著大於其他組
→
03/06 23:10, , 36F
03/06 23:10, 36F
→
03/06 23:10, , 37F
03/06 23:10, 37F
→
03/06 23:12, , 38F
03/06 23:12, 38F
→
03/06 23:12, , 39F
03/06 23:12, 39F
→
03/06 23:13, , 40F
03/06 23:13, 40F
→
03/06 23:14, , 41F
03/06 23:14, 41F
→
03/06 23:15, , 42F
03/06 23:15, 42F
→
03/06 23:16, , 43F
03/06 23:16, 43F
→
03/07 03:58, , 44F
03/07 03:58, 44F
→
03/07 03:58, , 45F
03/07 03:58, 45F
→
03/07 03:59, , 46F
03/07 03:59, 46F
→
03/07 04:00, , 47F
03/07 04:00, 47F
→
03/07 04:10, , 48F
03/07 04:10, 48F
→
03/07 04:10, , 49F
03/07 04:10, 49F
→
03/07 04:15, , 50F
03/07 04:15, 50F
→
03/07 04:18, , 51F
03/07 04:18, 51F
→
03/07 04:23, , 52F
03/07 04:23, 52F
抱歉 我把話題拖得太長,讓大家看不清楚問題點
其實我說了這麼多,只是想了解一件事:
如果我是用邏輯2的角度來做研究
只想了解這三個成績組別間是否有顯著的差異
那變項的時間跨度是否一定要相同?
若前面的變項(成績好、中、差,名為自變項)是2013-2014
後面的變項(參與班會的次數,名為依變項)是2010-2014
在邏輯2裏頭,是否可行??
→
03/07 04:25, , 53F
03/07 04:25, 53F
→
03/07 04:25, , 54F
03/07 04:25, 54F
→
03/07 04:26, , 55F
03/07 04:26, 55F
→
03/07 04:29, , 56F
03/07 04:29, 56F
→
03/07 04:31, , 57F
03/07 04:31, 57F
→
03/07 04:32, , 58F
03/07 04:32, 58F
→
03/07 04:35, , 59F
03/07 04:35, 59F
→
03/07 04:46, , 60F
03/07 04:46, 60F
→
03/07 04:46, , 61F
03/07 04:46, 61F
→
03/07 04:50, , 62F
03/07 04:50, 62F
→
03/07 04:51, , 63F
03/07 04:51, 63F
→
03/07 05:03, , 64F
03/07 05:03, 64F
→
03/07 05:03, , 65F
03/07 05:03, 65F
→
03/07 15:28, , 66F
03/07 15:28, 66F
→
03/07 15:28, , 67F
03/07 15:28, 67F
→
03/07 15:30, , 68F
03/07 15:30, 68F
→
03/07 15:30, , 69F
03/07 15:30, 69F
其實,前人的研究只是提出一個"描述性的論述"
沒有用到量化分析
因此也沒提及線性或非線性之類的面向
→
03/07 15:31, , 70F
03/07 15:31, 70F
→
03/07 15:31, , 71F
03/07 15:31, 71F
痾....其實只有兩個變項
國家和成績是不同的例子....= =
一個是:不同組別的國家 和 參與量
另一個是:學生成績 和 學生的活動參與量
這是兩個例子
※ 編輯: winchin (112.105.52.36), 03/08/2015 01:18:11
※ 編輯: winchin (112.105.52.36), 03/08/2015 01:34:26
→
03/09 14:13, , 72F
03/09 14:13, 72F
→
03/09 14:15, , 73F
03/09 14:15, 73F
→
03/09 14:16, , 74F
03/09 14:16, 74F
→
03/09 14:17, , 75F
03/09 14:17, 75F
→
03/09 14:19, , 76F
03/09 14:19, 76F
→
03/09 14:20, , 77F
03/09 14:20, 77F
→
03/09 14:23, , 78F
03/09 14:23, 78F
→
03/09 14:25, , 79F
03/09 14:25, 79F
→
03/09 14:27, , 80F
03/09 14:27, 80F
→
03/09 14:30, , 81F
03/09 14:30, 81F
討論串 (同標題文章)
完整討論串 (本文為第 3 之 3 篇):