[討論] 用簡單的統計模型來看得分

看板MLB作者 (得)時間14年前 (2011/07/18 15:17), 編輯推噓18(19154)
留言74則, 21人參與, 最新討論串1/1
LM模型: Runs ~ Hits + HR + BB + SO + SB + LOB + GIDP Summary Estimate Std. Error t value Pr(>|t|) (Intercept) -1.57802 0.56442 -2.796 0.010534 * Hits 0.83505 0.07197 11.603 7.57e-11 *** HR 0.45883 0.15011 3.057 0.005781 ** BB 0.67218 0.08538 7.873 7.70e-08 *** SO -0.01054 0.03427 -0.308 0.761327 SB 0.08393 0.10157 0.826 0.417501 LOB -0.47437 0.10059 -4.716 0.000105 *** GIDP -0.67690 0.15199 -4.453 0.000199 *** Multiple R-squared: 0.9718, Adjusted R-squared: 0.9628 首先,這結果告訴我們,用以上這些參數來估計所得分數可以估的相當的準確。 這些各樣打擊數據,幾乎可以解釋97%會得多少分的影響。 安打,HR,獲得保送,如常識所知的會提高得分。 盜壘多會增加多一點點的得分,三振多則會使得分少一點點,不過影響都不明顯。 安打、HR、保送對分數的重要性,我配了另外一個模型為了避免共線性 安打 : HR : 保送 對分數影響的比重為 1 : 2.4 : 0.7 殘壘多的球隊會使得分減少,雙殺更是明顯的影響著得分, 大約每次雙殺會使得得分少得0.6分。 最後則是來看看各隊的期望得分與實際得分。 RS/G 期望RS/G 分數差 名次差 BOS 5.355 5.324 0.030 NYY 5.152 4.981 0.171 TEX 4.938 4.869 0.069 TOR 4.708 4.826 -0.118 CIN 4.705 4.712 -0.007 +1 STL 4.663 4.747 -0.084 -1 ARI 4.495 4.619 -0.124 NYM 4.436 4.500 -0.064 COL 4.432 4.418 0.014 +1 DET 4.411 4.458 -0.048 -1 CLE 4.387 4.281 0.107 +4 MIL 4.375 4.405 -0.030 KC 4.358 4.401 -0.043 PHI 4.266 4.188 0.078 +2 TB 4.237 4.405 -0.168 -4 BAL 4.109 4.290 -0.182 -2 ATL 4.074 4.133 -0.059 CHC 4.042 4.014 0.028 +1 CWS 4.021 4.077 -0.056 -1 FLA 3.989 3.961 0.028 PIT 3.968 3.886 0.081 +1 MIN 3.914 3.874 0.040 +1 HOU 3.884 3.787 0.097 +2 WAS 3.853 3.665 0.188 +3 ANA 3.813 3.918 -0.106 -4 LA 3.674 3.806 -0.132 -2 SF 3.656 3.713 -0.057 -1 OAK 3.490 3.346 0.143 +1 SD 3.344 3.370 -0.026 -1 SEA 3.189 3.225 -0.036 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 211.76.175.169

07/18 15:19, , 1F
祭死屍打線
07/18 15:19, 1F

07/18 15:21, , 2F
推一個 剛剛有看到:P
07/18 15:21, 2F

07/18 15:22, , 3F
藍鳥第四名 分區也第四名QQ
07/18 15:22, 3F

07/18 15:29, , 4F
倒數6名全部集中在西區 國美西區火力到底有多弱啊...
07/18 15:29, 4F

07/18 15:39, , 5F
水兵硬是落後倒數第二快0.16分左右..幹得好orz
07/18 15:39, 5F

07/18 15:41, , 6F
第一面看不懂
07/18 15:41, 6F

07/18 15:44, , 7F
這模型幾個問題: 1.截距項的負數怎麼解釋? 這跟Y為1 0的
07/18 15:44, 7F

07/18 15:44, , 8F
機率模型一樣,我們無法理解Y小於0是什麼樣的情況。
07/18 15:44, 8F

07/18 15:46, , 9F
2. 怕共線性的話,把H拆成1B 2B 3B HR丟進去更好,還可以
07/18 15:46, 9F

07/18 15:47, , 10F
解決HR的係數比Hits還小的不直觀結果(要理解HR的得分期望
07/18 15:47, 10F

07/18 15:47, , 11F
是Hits+HR也是挺麻煩的)
07/18 15:47, 11F

07/18 15:49, , 12F
只是簡單的模型,就像把分數當常態,但不會有負和超過一百
07/18 15:49, 12F

07/18 15:49, , 13F
3.LOB放進去的意涵是什麼?前面的東西都可以解釋成因果關
07/18 15:49, 13F

07/18 15:50, , 14F
係,但得分跟LOB是同時發生的"結果"。
07/18 15:50, 14F

07/18 15:50, , 15F
Sorry 我認真了
07/18 15:50, 15F

07/18 15:51, , 16F
第一個模型純粹用來估計一個隊伍的平均得分用。:)
07/18 15:51, 16F

07/18 15:51, , 17F
一些簡單的短評有另設模型,LOB並不在其中:)
07/18 15:51, 17F

07/18 15:52, , 18F
謝謝你的comments :)
07/18 15:52, 18F

07/18 16:00, , 19F
天氣姐姐的統計蠻牛的( ̄ー ̄;)
07/18 16:00, 19F

07/18 16:01, , 20F
喜歡這種文章~
07/18 16:01, 20F

07/18 16:05, , 21F
推,那請問分數差代表意義是打出期望的分數?
07/18 16:05, 21F

07/18 16:08, , 22F
分數差 = 實際RS - 期望RS 可想成運氣or隱藏的因素所造成
07/18 16:08, 22F

07/18 16:10, , 23F
隱藏因素也許包含:分區守備強度,打者心理素質,觀念等眾多
07/18 16:10, 23F

07/18 16:10, , 24F
感謝回答,就是想問那些隱藏因素。
07/18 16:10, 24F

07/18 16:16, , 25F
補充:分數差也一定有包含著因假設線性模型所造成的錯誤
07/18 16:16, 25F

07/18 16:17, , 26F
謝謝jojo發問,謝謝aweds的賞臉
07/18 16:17, 26F

07/18 16:38, , 27F
ㄗㄠˋ
07/18 16:38, 27F

07/18 16:41, , 28F
跟跑壘技巧也有關
07/18 16:41, 28F

07/18 17:03, , 29F
模型適性分析...這純粹只是把想要的變數丟進去而已...
07/18 17:03, 29F

07/18 17:05, , 30F
只要變數多 R square 就會高...這並不能解釋任何事情
07/18 17:05, 30F

07/18 17:07, , 31F
3個基本假設 常態 共變異數 殘差 有檢驗過嗎?
07/18 17:07, 31F

07/18 17:08, , 32F
另外 如果把H拆成1B 2B 3B HR 會發現通常只有HR會顯著
07/18 17:08, 32F

07/18 17:10, , 33F
3B 太小就不用說了 (上面應該還有1B可能會顯著)
07/18 17:10, 33F

07/18 17:10, , 34F
也會增加解釋模型的難度
07/18 17:10, 34F

07/18 17:38, , 35F
請問你分析的樣本數夠大嗎?是否呈常態分配?
07/18 17:38, 35F

07/18 18:01, , 36F
樣本分配長怎樣?? 有共線性的問題嗎??
07/18 18:01, 36F

07/18 18:05, , 37F
啤酒說啥我都看不懂
07/18 18:05, 37F

07/18 18:21, , 38F
@njnw 人家是用 adjusted R-square 不是嗎...
07/18 18:21, 38F

07/18 18:31, , 39F
水手表示:用哪種算法我的名次都一樣
07/18 18:31, 39F

07/18 19:11, , 40F
我沒說這是正確的方式,只說用最簡單的方法來看
07/18 19:11, 40F

07/18 19:12, , 41F
認為要更嚴謹的人就麻煩您來幫忙改正了。
07/18 19:12, 41F

07/18 19:13, , 42F
沒有把2B 3B分出來也只是因為我手邊的資料沒有,所以沒分
07/18 19:13, 42F

07/18 19:16, , 43F
資料是目前2011年的比賽,如果看平均得分的畫理論上是常態
07/18 19:16, 43F

07/18 19:17, , 44F
說有共線是因為LOB明顯會和H BB HR有相關,所以我有改模型
07/18 19:17, 44F

07/18 19:19, , 45F
我對njnw有點意見...就是你有檢驗過不是了嗎?為什麼要批評
07/18 19:19, 45F

07/18 19:25, , 46F
如果只想看結果 不用檢定的話 共線性應該沒甚差吧
07/18 19:25, 46F

07/18 19:26, , 47F
估記得分的部分沒差,要看H HR BB的比重就有差
07/18 19:26, 47F

07/18 21:09, , 48F
史詩般的美西
07/18 21:09, 48F

07/18 21:10, , 49F
國西也是Orz....
07/18 21:10, 49F

07/18 21:40, , 50F
就說盜壘是很無聊的事情(攤
07/18 21:40, 50F

07/18 21:42, , 51F
而且這還沒記算CS的影響吧
07/18 21:42, 51F

07/18 22:27, , 52F
之前做報告老師說R 有0.3就不錯了耶
07/18 22:27, 52F

07/19 01:05, , 53F
@uranusjr ARS不是更沒有統計意義可言...
07/19 01:05, 53F

07/19 01:06, , 54F
@ddtddt 抱歉 其實不是批評 因為兩年前我做過類似的事
07/19 01:06, 54F

07/19 01:07, , 55F
然後做完發現自己缺少以及不符合理論只是硬解釋的成分居多
07/19 01:07, 55F

07/19 01:10, , 56F
然後看到這篇 真的離過得去的模型有點距離
07/19 01:10, 56F

07/19 01:10, , 57F
至少殘叉分析要做吧...如果你有興趣我可以把我的資料寄給你看
07/19 01:10, 57F

07/19 01:11, , 58F
但那並不是什麼能登大雅之堂的東西...後來想過修改
07/19 01:11, 58F

07/19 01:12, , 59F
@至於共線性 妳變數選擇方式是用什麼? 自定嗎?
07/19 01:12, 59F

07/19 01:12, , 60F
@r112 要看資料類型 像這種存在高度相關變數間 的R^2
07/19 01:12, 60F

07/19 01:13, , 61F
妳變數越丟越多 就會一直上升 要0.99也很容易
07/19 01:13, 61F

07/19 01:14, , 62F
其實真要建模 會比較建議使用主成分分析的方式來進行
07/19 01:14, 62F

07/19 01:21, , 63F
另外就算你說用最簡單的方法來看 誤用統計工具可能會導致
07/19 01:21, 63F

07/19 01:21, , 64F
錯誤的結論,你也說了"可能"不是正確的方式
07/19 01:21, 64F

07/19 01:23, , 65F
(更正 妳沒說可能,是我說的) 那有人提出問題 也是無可厚非吧
07/19 01:23, 65F

07/19 09:26, , 66F
你說的我都懂,好歹我統計唸了很多年,但我不是在寫論文
07/19 09:26, 66F

07/19 09:27, , 67F
你可以試試看拿掉一些變數,R^2是否依舊高。
07/19 09:27, 67F

07/19 09:29, , 68F
回應r112,看是哪方面的數據,描述人的行為的話的確0.3就高
07/19 09:29, 68F

07/19 09:35, , 69F
我只是恰巧看到一數據,手邊沒工作就手賤跑個最簡單的,
07/19 09:35, 69F

07/19 09:35, , 70F
跑出來的結果我覺得很make sense,於是分享。
07/19 09:35, 70F

07/19 09:41, , 71F
還是感謝分享,如果您做出任何否定我的模型的結論,
07/19 09:41, 71F

07/19 09:42, , 72F
我願意自D這篇:) normality or residual or equal var都行
07/19 09:42, 72F

07/19 16:09, , 73F
其實你只要殘差有乾淨... 這個模型還是會有他的解釋力
07/19 16:09, 73F

07/19 16:09, , 74F
aweds弱了齁XD
07/19 16:09, 74F
文章代碼(AID): #1E8zu74H (MLB)