[討論] LM 主要球員的 wOBA (至 2017-08-20 止)

看板Monkeys作者時間8年前 (2017/08/22 20:35), 8年前編輯推噓6(604)
留言10則, 8人參與, 最新討論串1/1
先說,這是我自己推測出來的結果, 與實際公式不一定符合,若有錯還請指正。 會選擇在這裡發,是因為我前陣子在這裡發表一篇文章後, 有版友建議我去讀進階數據, 所以算是來交作業吧? (笑) 等到球季結束後我會再做一次, 不過屆時應該會發在總版, 對象也會擴大至全聯盟主要打者, 屆時還請大家指教。 ---------------------------------正文--------------------------------- wOBA, weighted On-Base Average, 加權上壘率, 顧名思議, 就是把每種上壘方式配與權重後所得的上壘率, 相對應的就是傳統的上壘率 (OBP, On-Base Percentage). 傳統上壘率的表示式如下: BB + HBP + 1B + 2B + 3B + HR BB + HBP + H OBP = ------------------------------ = --------------------- AB + BB + HBP + SF AB + BB + HBP + SF加權上壘率的表示式如下:      (註) C'BB X BB + C'HBP X HBP + C'1B X 1B + C'2B X 2B + C'3B X3B + C'HR X HR wOBA = ----------------------------------------------------------------------- AB + BB + HBP + SF 通常為方便直接相加,會改成成如下表示: wOBA = CBB X BB + CHBP X HBP + C1B X 1B + C2B X 2B + C3B X 3B + CHR X HR 註:正確來說應該為uBB (un-intentional Base on Ball),   但為計算方便,且IBB次數甚少,應不影響整體分析,   故筆者在此自行簡化。 wOBA的各項系數在 FanGraph 網站都有,適用對象為 MLB。 要套用在CPBL當然也可以, 不過與其直接用,筆者比較有興趣的是探討各系數的來由, 進而算出屬於CPBL的系數。 筆者稍微讀了一下 FanGraph 裡面的說明 (Principle 條目裡的 Linear Weight) 後, 推測各項系數的算法可能如下所示: 保送的平均得分期望值變化 - 出局的得分期望值變化 CBB = ----------------------------------------------- X (wOBA Scale) (AB + BB + HBP + SF) 2 7 ----- ----- \ \ / / (ΔRE(BB(i,j)) X BB(i,j) ----- ----- i=0 j=0 保送的平均得分期望值變化 = -------------------------------------- 聯盟總 BB 其中 ΔRE 指的是 Change in Run Expectancy, 即得分期望值的變化, i = 0, 1, 2, 保出局數 j = 0, 1, 2, 3, 4, 5, 6, 7 保壘包狀況 (4 表示 12 壘有人, 5 表示 13 壘有人, 6 表示 23 壘有人, 7 表示滿壘) BB(i,j) 的意思是:在 i 出局, 壘包狀況為 j 時獲得四壞球保送的次數. 其餘系數的算法均與 CBB 同。 wOBA Scale 是一個聯盟常數,目的是為了讓聯盟平均的 wOBA 值正好為聯盟平均的 OBP 重要假設: (1) 壘打數 = 推進壘包數, 如二壘安打僅能將 1B 跑者推進至 3B. (否則推進組合會太複雜,無法計算) (2) 每次出局時出局數僅+1 (不考慮雙殺或三殺), 且均無法推進跑者 (不考慮犠牲觸擊、高飛犠等) 至 2017/8/20 賽後,利用筆者自行建立的資料庫, 計算得各項系數如下 (取至小數第三位): CBB = 0.813 CHBP = 0.834 C1B = 0.847 C2B = 1.290 C3B = 1.618 CHR = 2.087 wOBA Scale = 1.178 詳細的計算需搭配得分矩陣,怕全列出篇幅會太長,就先不列。 可以發現:各系數與 FanGraph 所算的,大致相去不遠, 不過稍微怪異的點是:C1B 跟 (1) CBB 及 (2) CHBP 的差距不大, 如果沒有計算錯,推測的可能是: CPBL 投出四死球的機率可能偏高, 或者說 "投出死球而導致該局失分" 的情況較其它聯盟高, 進而拉高 CBB 及 CHBP 的值 以下是 LM 主要球員的 wOBA (至 2017/08/20 賽後), 另外附上 wRAA, wRC 及 wRC+, 下方會說明。 ------------------上分隔線--------------------- Lamigo PA wOBA wRAA wRC wRC+ 藍寅倫 186 0.430 10.94 37.81 140.70 林智平 187 0.276 -13.46 13.56 50.19 王柏融 383 0.504 46.60 101.94 184.22 陳俊秀 305 0.419 15.04 59.10 134.12 朱育賢 305 0.422 15.67 59.74 135.56 林泓育 317 0.413 14.04 59.84 130.65 郭嚴文 298 0.394 8.36 51.42 119.42 梁家榮 209 0.355 -1.06 29.13 96.47 嚴宏鈞 46 0.440 3.08 9.73 146.37 陽耀勳 195 0.394 5.39 33.56 119.12 楊岱均 77 0.361 0.03 11.16 100.27 黃浩然 148 0.323 -4.78 16.61 77.66 余德龍 172 0.288 -10.67 14.18 57.07 郭永維 67 0.290 -4.04 5.64 58.24 林承飛 231 0.302 -11.56 21.82 65.37 劉時豪 123 0.227 -13.94 3.83 21.54 ------------------下分隔線--------------------- 說明: wOBA 除以 wOBA Scale 後, 得到的值 (估且稱作 wOBA') 的意思為: 該球員每打席可創造的得分期望值。 舉例:王柏融的 wOBA' = wOBA / (wOBA Scale) = 0.505/1.211 = 0.417, 意思為:王柏融每個打席預期可帶來 0.417 的得分. wRAA (weighted Runs above Average) wRAA = (wOBA' - 聯盟wOBA') X 球員PA 意思為:假設有一個聯盟平均的打者,在打席數為 X 時可創造 Y 分,     則球員 Z 在打席數為 X 時,預期可創造的分數比 Y 多多少。 舉例:王柏融的 wRAA 為 45.57, 意思為:王柏融在其目前打席(383)時,     預期可比聯盟平均打者,在同樣打席(383)的狀況下,多創造 45.57 的得分. wRC (weighted Runs Created) 聯盟總得分 wRC = [(wOBA' - 聯盟wOBA') + ------------] X 球員PA 聯盟總 PA 承自wRAA, 把球員的 wRAA 加上聯盟的每打席得分期望值 得到的就是球員在目前的打席情況下,預期可創造的總分。 舉例:王柏融的 wRC 為 100.86, 意思為:王柏融在其目前打席(383)時,     預期可創造出 100.86 的得分.     注意此計算結果僅為預期,     跟實際上創造出的得分 (比如說 RBI) 應該會接近,但不一定完全吻合。 通常 (但不絕對), 球員的打席數越多,越容易累積 wRC, wRC 是後來計算 WAR (Wins above Average,概念上類似 Win Share (WS)) 時, 相當重要的參數。 wRC+ (weighted Runs Created Plus) wRAA 聯盟總得分 聯盟總得分 [ ------ + ------------ - (球場因素) X ------------ ] PA 聯盟總 PA 聯盟總 PA wRC+ = --------------------------------------------------------- League wRC Excluding Pitchers [ -------------------------------- ] League PA Excluding Pitchers 類似 OPS+ 的概念, 把球員的 wRC 跟聯盟的比較。 CPBL 因為投手幾乎沒有打擊, 所以分母大致就是所有打擊榜上球員的數據加總。 另外因為 CPBL 除 LM 外的其它三隊並無固定主場, 無法計算球場因素,故在此一律假設球場因素為 1 . 通常 (但不絕對) 球員的 wRC+ 會很接近跟 OPS+ , 比方說王柏融的 wRC+ 與 OPS+ 分別為 184.22 與 185.55,    梁家榮的 wRC+ 與 OPS+ 分別為 96.47 與 97.36, 郭永維的 wRC+ 與 OPS+ 分別為 58.24 與 57.30. 小結: 其實要計算wOBA, wRCC, wRC 及 wRC+, 直接套用 FanGraph 的系數應該就已經足夠, 以上所寫,只是想探究其背後的原理, 推測應該相去不遠。 如有錯誤,還請不吝指正。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.44.149.62 ※ 文章網址: https://www.ptt.cc/bbs/Monkeys/M.1503405335.A.96C.html

08/22 20:36, , 1F
沒想到可以看到進階數據 感恩
08/22 20:36, 1F

08/22 20:38, , 2F
好專業 推個
08/22 20:38, 2F

08/22 21:00, , 3F
推用心分析文
08/22 21:00, 3F

08/22 21:20, , 4F
08/22 21:20, 4F

08/22 21:51, , 5F
王柏融根本不屬於這個聯盟XDD
08/22 21:51, 5F
※ 編輯: Lefter (114.44.149.62), 08/23/2017 00:06:53 ※ 編輯: Lefter (114.44.149.62), 08/23/2017 00:10:23

08/23 03:24, , 6F
請問重要假設那段是指,在計算各事件的run value時用的
08/23 03:24, 6F

08/23 03:27, , 7F
RE變化是基於假設的進壘狀況而不是根據比賽記錄嗎?
08/23 03:27, 7F

08/23 03:31, , 8F
如果是的話猜測可能是C1B趨近CBB跟CHBP的原因之一
08/23 03:31, 8F
我在計算時的確是基於假設的進壘狀況去計算, 因此你提到的也有可能是原因之一。 但因為我在 FanGraph 網站上看到這樣的一段話: "In OBP, an out is worth zero" 我的第二假設是根據這段話來的, 因為如果把高飛犠跟觸擊也考慮進去,這句話應該不會成立。 而第一個假設 (即進壘狀況的假設) 跟第二個假設 (出局假設) 又有關聯, 因為第二假設的意思為:壘打數為 0,故壘包推進數為0. 但事實上是不是這樣, FanGraph 上只有介紹大概的算法,沒有完整的計算過程, 所以不得而知。 根據我手邊的資料庫,先假設我的統計都沒錯 (很沒公信力的假設), CPBL 至 2017-08-20 為止, 總 BB 為 1,261 ,在滿壘時 BB 為 33,佔總 BB 約 2.6% 總 HBP 為 175 ,在滿壘時 HBP 為 5,佔總 HBP 約 2.9% 總 1B 為 2,434 ,在滿壘時 1B 為 68,佔總 1B 約 2.8% 或許比例太接近也是一個因素.

08/23 06:21, , 9F
08/23 06:21, 9F
※ 編輯: Lefter (114.44.149.62), 08/23/2017 11:05:01

08/23 11:06, , 10F
另外我發現有些系數算錯了,已修正。
08/23 11:06, 10F
※ 編輯: Lefter (114.44.149.62), 08/23/2017 11:07:59
文章代碼(AID): #1Pd2KNbi (Monkeys)