[問題] 線性迴歸預測模型的變數選擇

看板Statistics作者 (honichi)時間2年前 (2021/09/24 09:55), 編輯推噓4(405)
留言9則, 5人參與, 2年前最新討論串1/1
統計專業板友好,老妹統計外行一個,工作多年基本上都還給教授了, 最近負責帶的暑期實習生專案遇到了一個問題想請教 <背景> 研究主題是「市場變數對公司產品價格(單位價格)的影響」 (敝公司產品類似記憶體產業那種3-5家寡占性競爭) 事實上這個主題在2015年曾有前手研究過,當時以2010-2014資料分析, 得出最強三大相關性的因子為 1.供需 2.市占率總變動值(前三大取絕對值) 3. 下游客戶獲利率 然而此次以2015-2021資料研究,整體變數的相關性幾乎都接近0或低度相關 勉強找出前三大相關性因子為 1.季節性 2.市占率總變動值 3.競爭對手獲利率 光是供需這一點完全變成沒有相關性,就快被老闆問到瘋了~不過我已經找到解釋的原因 (市場供需的結構改變和目前使用的估算資料可能和我們理解的真實世界不同) <問題> 由於需要預測2022價格走勢,我讓實習生找出一個比較合適的模型 (多變數線性回歸) 我直覺認為應該1.季節性 2.市占率總變動值 3.競爭對手獲利率的模型會是最合適的 R2=0.77 各自P-value為0.0/0.69/0.0 沒想到實習生卻得到1.季節性 2.供需 3.競爭對手獲利率的組合會更合適 R2=0.82 各自P-value為0.0/0.04/0.0 原本跟老闆說,供需已經變不重要變數了,結果預測還使用了供需這個變數 完全打臉~ 我的問題可能問得不夠專業,盼板友可以分享可能的原因或不吝指正 謝謝大家~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 165.225.116.174 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1632448520.A.0DC.html

09/24 09:59, 2年前 , 1F
所以您是要問……什麼?
09/24 09:59, 1F

09/24 10:04, 2年前 , 2F
原因可能取決於挑選變數的過程,例如變數間有交互作用或共
09/24 10:04, 2F

09/24 10:04, 2年前 , 3F
線性之類的,您可能要補充一下變數篩選邏輯比較好判斷,另
09/24 10:04, 3F

09/24 10:04, 2年前 , 4F
外還要檢查變數有沒有符合回歸的假設
09/24 10:04, 4F

09/24 15:20, 2年前 , 5F
先確定回歸假設,再考慮後續的解釋,不然只是另一種形
09/24 15:20, 5F

09/24 15:20, 2年前 , 6F
式的看圖說故事
09/24 15:20, 6F

09/24 16:43, 2年前 , 7F
試試看用stepwise挑挑看?
09/24 16:43, 7F

09/24 20:55, 2年前 , 8F
做預測的話, 要考慮樣本外預測而不是樣本內預測
09/24 20:55, 8F

09/25 01:01, 2年前 , 9F
N 有多少?
09/25 01:01, 9F
文章代碼(AID): #1XJJ083S (Statistics)