Re: [問題] 迴歸的R-square值
※ 引述《dick0631 (立志打敗邪惡的ETS軍團)》之銘言:
: ※ 引述《chibamo (機掰毛)》之銘言:
: : R-square你可以把他想像成correlation coefficient
: : 它衡量的是y與你的一堆x之間線性相關的程度
: : 所以那麼低肯定代表model是有問題的...
: : 也許關係不是線性,也許是時序資料
: : 你可以試著畫一下scatter plot或用無母數的additive model畫一下圖
: 如果y,X 關係不是線性,用linear也不是不行。改成這個 y, lnX 模型,R^2增加了,
: 但意義大嗎?
y, X關係不是線性硬當成線性做的話error term的期望不是0,
違反Guass-Markov condition,
做出來的結果不是unbiased,更不用討論是不是BLUE,也不會consistent
如果y, lnX的R^2很高代表y, lnX可能有線性關係,
有些資料天生就是這樣,硬套用y, X的模型反而不對。
如果都可以用原始的linear作的話我們也不用發展廣義線性模型、無母數迴歸跟
半參數化模型了。
: 若改成 lny,X,R^2能比嗎?(如你下一點說的)
: 如果是time series data,那麼R^2是不會這麼小的。顯然原po用的data是cross section
: data吧!
: : R-square不是那麼重要的原因是不同資料或model的值無法互相比較
: : 就算有考慮變數個數做adjust之後還是不能比
: : 但是不代表值那麼低沒有問題ˋ(′_‵||)ˊ
: R^2值低的問題在哪裡?要不要說清楚一點?
: 假想一個例子,R^2-->1,能表示因果關係嗎?
想想R^2的定義,它比較的是我用這個模型估計的結果比起直接用平均數估計
用SSE做衡量標準進步了多少
所以R^2太低代表我這個模型根本沒比直接用平均數好多少
那我幹嘛用這模型?
另外迴歸本來就不能表示因果關係,因果關係需要在實驗上設計
那是casual inference探討的問題。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.225.73.50
討論串 (同標題文章)