Re: [外絮] 用機器學習模型預估MVP得主

看板NBA作者 (shawdidi)時間3年前 (2021/04/30 13:18), 3年前編輯推噓4(221837)
留言77則, 46人參與, 3年前最新討論串2/4 (看更多)
※ 引述《timmyen (Ako)》之銘言: : 今天早上在reddit看到的文章,覺得挺有趣,轉過來跟版友們分享。 : 小弟不是學資料科學的,如果內文有誤也請不吝指正 : 原文:https://perthirtysix.com/essay/2021-nba-mvp-race : 懶人包: : 作者(u/robmoo_re)利用了過去38年的NBA的球員資料以及MVP票選結果(包含排名及票數) : 建造了一個預估球員得到MVP的機率以及MVP得主的模型, : 利用這個模型,在過去38年中可以正確的計算出32年的得主。 : 在這個模型中,各項球員數據的權重(也就是這個模型認為影響MVP票選最重要的數據) : 依序如下: : https://imgur.com/33ouqUG
: 球隊勝率% : 每場上場時間 : 球隊種子序 : WS/48 : 每場得分 : 出賽場次 : VORP : 2分命中率 : 罰球次數 : 助攻數 : 每場籃板 : 整體命中率 : BPM : Usage% : 每場失誤數 : 真實命中率 : (以下不列,可以自己看圖) : 模型利用以上數據算出每一個球員的candidacy score : 這個分數越高者,即是模型認為越有可能得到MVP的人選 : 要特別說的是,某些數據本身是互相有關聯性的(譬如:兩分/三分命中率及整體命中率, : 或是整體命中率跟一大堆進階數據),由於已經被重複計算過,因此單項的權重會降低, : 不代表這項數據就不重要。 : === : 幾個有趣的結果 : 1. 誰是這38年來MVP分數最高的球員? : 答案是08-09年的姆斯,分數高達4.49 : 2. 那最低分的MVP得主又是誰? : 答案是04-05年的Nash,他當年的分數只有1.09 : 3. 誰的MVP被偷了?(誤) : 剛剛提到38年中這個模型成功預測出32年的MVP得主, : 這也代表其中有6年模型預測跟最終的結果是不一致的, : (1) 2016-2017年的MVP,模型預測得主是Harden(2.73),最終由當年拿下平均大三元 : 的Westbrook(2.44, 第二)拿走MVP : (2) 2010-2011年,當年分數最高的是LBJ(2.37),最終MVP被Rose(2.23)拿走。 : (3) 2004-2005年,也就是上面提到,Nash以史上最低分(1.09)拿下MVP的那年。 : 當年屈居第二的是Shaq (1.12,其實沒差很多),也難怪他老人家到現在還在記仇 : 另外,隔年(05-06)Nash連莊時MVP分數也不是第一(1.8), : 當年分數第一的是LBJ(2.25),只能說Nash真的是這個模型的outlier : 4. Kobe到底有沒有偷了CP3一個MVP? : 如果用這個模型看,答案是沒有,當年(07-08)Kobe以2.62分拿下MVP, : 屈居第二的CP3分數是2.2分 : 5. 38年來最大的一二名差距發生在1999-2000年,當年大歐以3.71分拿下MVP, : 分數第二的是Alonzo Mourning -- 0.7分 (票選第二的是KG,分數0.55) : 另外,Curry全票MVP那年分數是3.47分,第二名的可愛1.89分,也是不小的差距 : 6. 那今年的MVP會是誰呢? : 模型預測今年的MVP會是阿肥Jokic : https://imgur.com/KRIWmS9
: 本賽季截至目前為止,MVP分數最高的三人分別是 : Jokic (2.02) : 字母哥(0.26) : Embiid(0.04) : 非常巨大的差距 : ==== : 有興趣的版友可以去看看這個模型是怎麼建出來的 : 裡面有個"Explore 1984 - 2020"可以拉出這38年間所有模型跑出來的結果 : https://imgur.com/ZU04aVC
: Reddit討論: : https://www.reddit.com/r/nba/comments/n150xj/ 討論這問題先搞懂MVP是啥好嗎? 最有“價值”球員 球員的價值又不是那些數據能完整呈現的 況且這些數據基本都是人為定義 老衲第一年會拿主因就是回歸後作為核心戰績躍升 你說這不能表現一個球員的價值? Rose那年更好笑了 LBJ身邊有兩個去年前五的隊友戰績還輸 你跟我說他比較有價值? 龜龜那年就是大三元噱頭 我也覺得用數據有沒有湊到雙位數評斷球員加值扯到不行 但就是投出來的結果 另外這model 32/38的準確度還是在偷看答案的情況下得到的 就說明用這些數據看MVP本來就非常浮動 有個model出來大家討論/預測是不錯啦 但拿這個結果出來氣噗噗誰偷誰就好笑了 ----- Sent from JPTT on my Google Pixel 4 XL. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.21.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619759938.A.368.html

04/30 13:22, 3年前 , 1F
有些東西本就不是量化可以看出來的 數據都只是參考
04/30 13:22, 1F

04/30 13:22, 3年前 , 2F
這篇中肯
04/30 13:22, 2F

04/30 13:24, 3年前 , 3F
04/30 13:24, 3F

04/30 13:26, 3年前 , 4F
數據是死的,投票的人是活的,要拿MVP本來就會有諸
04/30 13:26, 4F

04/30 13:26, 3年前 , 5F
多因素影響,這篇正解
04/30 13:26, 5F

04/30 13:26, 3年前 , 6F
同感 拿結果套出來的模型 去argue哪年的結果不準 也
04/30 13:26, 6F

04/30 13:26, 3年前 , 7F
是蠻奇怪的 難道不是繼續修改模型嗎?
04/30 13:26, 7F

04/30 13:28, 3年前 , 8F
拿結果去弄出來的模型 結果38個sample就有6個是錯的
04/30 13:28, 8F

04/30 13:28, 3年前 , 9F
這種白癡模型也有人會信哦 笑死
04/30 13:28, 9F

04/30 13:28, 3年前 , 10F
別那麼激動 只是預測一下
04/30 13:28, 10F

04/30 13:29, 3年前 , 11F
所以姆斯去年該拿囉,沒有他一輪都沒有
04/30 13:29, 11F

04/30 13:30, 3年前 , 12F
氣成這樣 XD
04/30 13:30, 12F

04/30 13:31, 3年前 , 13F
但是總要有一個客觀的評價,大家在努力找啊
04/30 13:31, 13F

04/30 13:34, 3年前 , 14F
人家是拿數字去解釋 你拿感覺去解釋 還氣成這樣是
04/30 13:34, 14F

04/30 13:34, 3年前 , 15F
怎樣
04/30 13:34, 15F

04/30 13:37, 3年前 , 16F
你真的有搞清楚那個模型是從什麼角度解釋MVP拉嗎
04/30 13:37, 16F

04/30 13:37, 3年前 , 17F
笑死
04/30 13:37, 17F
至少比那些討論誰被偷的懂多了

04/30 13:38, 3年前 , 18F
人家就是用模型跑又沒有說他就是標準
04/30 13:38, 18F
你根本沒看懂我在說啥

04/30 13:38, 3年前 , 19F
大家就在討論啊 就你特別發一篇出來氣XD
04/30 13:38, 19F

04/30 13:39, 3年前 , 20F
說真的如果機器學習能得出跟人類投票完全符合的結果
04/30 13:39, 20F

04/30 13:39, 3年前 , 21F
,那在坐各位應該都不用工作了 不過就是分享個實驗
04/30 13:39, 21F

04/30 13:39, 3年前 , 22F
結果,這麼認真辯護幹嘛
04/30 13:39, 22F

04/30 13:39, 3年前 , 23F
你很氣欸 數據分析本來就是這樣了啊 連人為因素都能
04/30 13:39, 23F
那篇底下就一堆人在那邊偷來偷去的啊

04/30 13:39, 3年前 , 24F
分析的話ML就無敵了好嗎
04/30 13:39, 24F

04/30 13:41, 3年前 , 25F
這兩天太陽迷真是火力十足XD
04/30 13:41, 25F

04/30 13:42, 3年前 , 26F
模型就是推測跟參考而已 而且他的準度也不低
04/30 13:42, 26F

04/30 13:42, 3年前 , 27F
照這套賭,勝率32/38;要是原PO能弄出勝率更高的mo
04/30 13:42, 27F

04/30 13:42, 3年前 , 28F
del,賭客當然樂觀其成啊
04/30 13:42, 28F
我要說的是用這個去說誰是不合格MVP很蠢,就這樣

04/30 13:45, 3年前 , 29F
100%命中就會被argue過適了啊 XD
04/30 13:45, 29F
※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:45:23 ※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:46:53

04/30 13:47, 3年前 , 30F
機器學習我只服濤哥
04/30 13:47, 30F
※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:48:38 ※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:49:02

04/30 13:52, 3年前 , 31F
你是不是不懂數據分析
04/30 13:52, 31F

04/30 13:53, 3年前 , 32F
會很在乎,說是什麼偷啊、不如第二順位,大概就是
04/30 13:53, 32F

04/30 13:53, 3年前 , 33F
下重注的或是死忠粉絲啊!發洩一下無傷大雅,看球
04/30 13:53, 33F

04/30 13:53, 3年前 , 34F
本質就是娛樂嘛
04/30 13:53, 34F

04/30 13:54, 3年前 , 35F
笑死我從頭到尾沒有批評那model
04/30 13:54, 35F

04/30 13:54, 3年前 , 36F
一堆人中文不好在那跳針
04/30 13:54, 36F

04/30 13:55, 3年前 , 37F
無言
04/30 13:55, 37F

04/30 13:56, 3年前 , 38F
原po內文一堆矛盾==
04/30 13:56, 38F

04/30 13:58, 3年前 , 39F
人家認為這些數據配合權重就是可以某種程度上代表M
04/30 13:58, 39F

04/30 13:58, 3年前 , 40F
VP。要拿「不可見的感覺」出來講講的就是另外一件
04/30 13:58, 40F

04/30 13:58, 3年前 , 41F
事情了。
04/30 13:58, 41F

04/30 13:58, 3年前 , 42F
等等,那model難道不是拿那38年的MVP當作test data
04/30 13:58, 42F

04/30 13:58, 3年前 , 43F
嗎?train應該要用額外年度吧?
04/30 13:58, 43F
我是沒認真看啦 但這資料你哪來額外年度XD NBA環境變化那麼大40年前資料拿來train怎麼可能準

04/30 14:00, 3年前 , 44F
不要這麼中肯
04/30 14:00, 44F

04/30 14:01, 3年前 , 45F
好不容易有浮木飄過來
04/30 14:01, 45F

04/30 14:03, 3年前 , 46F
跟不是工程的人討論數據分析本來就別奢望他們懂
04/30 14:03, 46F

04/30 14:03, 3年前 , 47F
人家的模型在試圖算出可能被“選”出來的MVP 要是
04/30 14:03, 47F

04/30 14:03, 3年前 , 48F
有個單純只在量化球員個人表現價值的模型多好
04/30 14:03, 48F
※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 14:05:13

04/30 14:06, 3年前 , 49F
其實32/38沒啥參考價值
04/30 14:06, 49F

04/30 14:07, 3年前 , 50F
你是不是看不懂原PO想表達什麼..
04/30 14:07, 50F
我又不是回原po

04/30 14:09, 3年前 , 51F
真的 32/38 還說誰偷誰的 根本自己做壞model還在吹
04/30 14:09, 51F

04/30 14:14, 3年前 , 52F
其實他不算32/38啊 因為那個是已知的資料
04/30 14:14, 52F

04/30 14:15, 3年前 , 53F
你用這組model用test之後還未知的數年mvp才知道準確
04/30 14:15, 53F

04/30 14:15, 3年前 , 54F
04/30 14:15, 54F

04/30 14:16, 3年前 , 55F
其實妳也可以用出38/38但這個預測之後的mvp一定很爛
04/30 14:16, 55F
※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 14:17:32

04/30 14:30, 3年前 , 56F
那強者跟強者同隊數據會稀釋怎不說 只看戰績 那為
04/30 14:30, 56F

04/30 14:30, 3年前 , 57F
何不綁定只能頒給戰績第一 事實上就是戰績也只是數
04/30 14:30, 57F

04/30 14:30, 3年前 , 58F
據之一
04/30 14:30, 58F

04/30 14:37, 3年前 , 59F
幫補血 噓文的套路好一貫XD
04/30 14:37, 59F

04/30 14:41, 3年前 , 60F
一看就是不懂機器學習的文組
04/30 14:41, 60F

04/30 14:41, 3年前 , 61F
至少人家有數據,你只會通靈
04/30 14:41, 61F

04/30 14:42, 3年前 , 62F
supervised learning本來就要給training data好嗎
04/30 14:42, 62F

04/30 14:46, 3年前 , 63F
還在十進位湊雙位數??? 到底醒了沒啊
04/30 14:46, 63F

04/30 14:48, 3年前 , 64F
幫我看一下我這樣有符合一貫套路嗎
04/30 14:48, 64F

04/30 14:48, 3年前 , 65F
得分王 PER最高 單核帶隊 講幾次了還在人類十進位?
04/30 14:48, 65F

04/30 15:27, 3年前 , 66F
笑死
04/30 15:27, 66F

04/30 16:17, 3年前 , 67F
我也是沒認真噓
04/30 16:17, 67F

04/30 16:38, 3年前 , 68F
好了啦每年改標準最重要
04/30 16:38, 68F

04/30 17:23, 3年前 , 69F
都在湊答案了,應該有辦法全對,例如前後季戰績差
04/30 17:23, 69F

04/30 17:23, 3年前 , 70F
異大加分、或平均大三元加分 之類的
04/30 17:23, 70F

04/30 17:49, 3年前 , 71F
氣氣氣,嘻嘻
04/30 17:49, 71F

04/30 17:55, 3年前 , 72F
蠻想知道他是用那幾年的基礎資料當基底去回測過去過
04/30 17:55, 72F

04/30 17:55, 3年前 , 73F
去mvp的準確度
04/30 17:55, 73F

04/30 18:48, 3年前 , 74F
04/30 18:48, 74F

04/30 23:26, 3年前 , 75F
笑死
04/30 23:26, 75F

05/01 01:39, 3年前 , 76F
就是數據分析,那感覺跟人家吵啥,潑婦罵街喔?說看
05/01 01:39, 76F

05/01 01:39, 3年前 , 77F
看妳的分析方法看可以猜中多少個啊
05/01 01:39, 77F
文章代碼(AID): #1WYvD2De (NBA)
文章代碼(AID): #1WYvD2De (NBA)