[問題] 問一個簡單的線性回歸

看板Statistics作者 (....)時間11年前 (2013/01/09 04:06), 編輯推噓1(1024)
留言25則, 4人參與, 最新討論串1/1
假設我有 A,B,C 三組數據 ABC 皆為 Log-normal distribution 今天以C 為 dependent AB 為 independents 做 multiple linear regression C=aA+bB+constant 有人跟我說 linear regression 是屬於 parameteric analysis ABC 要注意 normality 但是有人說 MLR 不用在意 變數的 distribution 重點是 error term的 distribution 我看了書 還是有點困惑 我本身不是學統計的 但是感覺第一個說法比較正確 所以想請問各位高手的意見 如果有reference的話小弟感激不盡 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 134.197.0.20

01/09 14:41, , 1F
既然已經是 log-normal , 那想必已經轉過 log
01/09 14:41, 1F

01/09 14:42, , 2F
那....還有甚麼問題? 是不是常態分佈 就把A和B都畫個hist
01/09 14:42, 2F

01/09 14:43, , 3F
看一下 , 然後還有疑慮就做個 ks-test 之類的看 p.value
01/09 14:43, 3F

01/09 14:43, , 4F
基本上不要太離譜就直接跑回歸沒問題 (比方說雙峰分佈)
01/09 14:43, 4F

01/09 20:04, , 5F
第二句話才是對的,原理是這樣的
01/09 20:04, 5F

01/09 20:05, , 6F
回歸就是用X去預測Y,如果先不考慮存在誤差,那且方程式
01/09 20:05, 6F

01/09 20:06, , 7F
為y=3+2x,那無論x的分布如何,他與y的關係都成立
01/09 20:06, 7F

01/09 20:06, , 8F
在你接受上面這個說法後,我們考慮預測可能存在誤差
01/09 20:06, 8F

01/09 20:07, , 9F
因此式子變成y=3+2x+殘差項
01/09 20:07, 9F

01/09 20:07, , 10F
如果這個誤差是隨機的,我們就可以說我們的預測是準的
01/09 20:07, 10F

01/09 20:07, , 11F
所以只要你的殘差項是常態分布就好了
01/09 20:07, 11F

01/09 20:08, , 12F
所以,x與y原來長的多噁心都沒關係,重要的是殘差項必須在
01/09 20:08, 12F

01/09 20:09, , 13F
所有x上都呈現"相同"的常態分布
01/09 20:09, 13F

01/10 00:50, , 14F
謝謝兩位 給 G大 因為有物理意義 轉成 log 變成沒辦法用
01/10 00:50, 14F

01/10 00:51, , 15F
物理意義解釋,不過經過兩位解釋 我大概懂 看殘像分布慨念
01/10 00:51, 15F

01/10 10:12, , 16F
如果 A, B 是 log-normal, 不管誤差項是什麼分布, 只要它是
01/10 10:12, 16F

01/10 10:13, , 17F
i.i.d., 那麼 A 不會維持 log-normal.
01/10 10:13, 17F

01/10 10:14, , 18F
說 "因為有物理意義 轉成 log 變成沒辦法用" 是很奇怪的說法
01/10 10:14, 18F

01/10 10:15, , 19F
假設無誤差好了, 兩個 log-normal r.v. 的線性組合再加一個
01/10 10:15, 19F

01/10 10:15, , 20F
常數項還會是 log-normal r.v. 嗎?
01/10 10:15, 20F

01/10 10:17, , 21F
所謂 "物理意義" 確實表明 C 是 A, B 及一個常數的線性組合?
01/10 10:17, 21F

01/10 10:18, , 22F
如果是那樣, 說 A, B, C 都是 log-normal 就是自相矛盾.
01/10 10:18, 22F

01/10 10:18, , 23F
一個有物理意義的模型怎能自相矛盾?
01/10 10:18, 23F

01/10 10:19, , 24F
再好好考慮一下 A, B, C 三個量之間真正的 "物理意義" 上的
01/10 10:19, 24F

01/10 10:20, , 25F
關係, 再重新評估一下這三種量的機率分布假設吧!
01/10 10:20, 25F
文章代碼(AID): #1Gx7mrGa (Statistics)