[閒聊] 嘗試以機器學習排出P+前三隊

看板basketballTW作者chih2loveu (辣助)時間1年前 (2022/07/08 04:58)推噓59(59推 0噓 38→)

留言97則, 59人參與討論串1/2 (看更多)

大家好前陣子世界賽，看到很多人在討論P+前兩隊的選人標準突然想到我曾經做過類似的專題（感興趣的人可以A我文章看，但很簡略xD）因此決定再做一次，看看是不是與媒體投票的結果有所差異～先打預防針，這是機器學習的結果，基本上就是個黑盒子，所以大家看看就好，別太認真！ - 懶人包：以 PCA+t-SNE 對資料降維，並以 K-Means 對球員分群^[1] 再考慮各群對球隊勝率的幫助及各自的上場時間，得出結論（有根據P+規則）第一隊-> 吉爾貝克、李德威、李家瑞、陳堅恩、李愷諺第二隊-> 辛巴、朱雲豪、曾文鼎、楊盛硯(?)、簡祐哲第三隊-> 塞瑟夫、林志傑、林書緯、林俊吉、高國豪（參考板友意見後，在推文有另一個版本） - 正文：首先機器學習最重要的就是資料，分成傳統數據和進階數據傳統數據部分來自P+網站，進階數據部分則來自Game Changer網站^[2] 範圍是本季例行賽，出賽多於十場、平均上場多於六分鐘、總上場時間多於一百分鐘在這裡先吐槽一下，P+可不可以趕快完善數據這一塊，不懂到底難在哪...... 都有一個NBA stat給你抄了，到現在還是只有傳統數據@@ 但現在的資料維度（95個）太高，直接跑的結果不會好，因此需要先設法降低這邊用的是比較常見的 PCA 和 t-SNE PCA 的中文叫做「主成分分析」，原理簡單來說是透過軸的旋轉找到新的變數（即主成分），這個變數可以同時保留很多維度的訊息，從而達到降維目的可以想像在二維平面上，假設資料點都是(1,1)、(2,2)、(3,3)...... 那麼比起用x、y軸記錄這些點，不如將座標軸旋轉45度，那就是只用一個軸達到同樣效果但 PCA 完後仍有3X個維度，因此再引入另一種方法再度降維 t-SNE 我不太確定正式的中文譯名，直接翻的話叫「t分布隨機鄰近插入」假設我們想要將一個圓上均勻的點投射在一條線上，勢必有重疊但其實距離很遠的點那要如何讓這些點在線上可以分別？答案比想像中粗暴：先量原本的距離量完後根據距離丟到t分布上，並賦予這些點一個條件機率使這些點有更高的機會在投射後被分到原本距離近的點附近（抱歉真的很難解釋^[3]）維度順利降到二維後，就可以開始對球員進行分群了，在這裡順便解釋一下原因在現行所有評估球員的方法中，最難的點就是怎麼降低場上其他人的影響？這就回到我的目的，也就是選出前三隊對我來說，前三隊代表這些人上場就是贏球保證因此我藉由觀察其他表現差不多的球員，去看說是不是其他人上場越多，球隊勝率越高？當然這個想法有很多瑕疵，但現行公開的數據來看，我認為可能沒有更好的選項分群的方法應該就不用介紹了，就是將距離近的點抓在一起，而這裡我將球員分10群^[4] 接著計算各群在各隊的上場時間，加上各隊勝率跑個迴歸，便得到各群平均對勝率的影響值得注意的是各群之間各球員的相似度落在0.375至0.4左右因此如果直接用上面得到的結果，會造成精確度的影響很大，那要怎麼解決呢？其實統計很常見的做法就是：一次不行，那就多跑幾次，相信大數法則xD 所以我重複上述步驟100次，並將每次得到的勝率乘上同群相似度和總上場時間最後得到的結果便是我用來決定前三隊的指標！（結果如懶人包所示）^[5] - 心得： 1.以這項指標來看，MVP德威、最佳洋將大B、最佳新人小烈而敏哥和又瑋在這項指標中都不算太好 2.國王和領航猿的洋將在隊內排名都不高（湯瑪士隊內第9，里喬羅三人則幾乎墊底）可能是國王的體系讓本土球員可以更好的發揮優勢？ 3.結果看起來對中鋒評價都比較高，可能是採用的數據問題，也可能在台灣中鋒真的很好用這一點等之後有更多數據後再作觀察 4.FMVP辛特力在隊內排名倒數第二，真正的季賽養生季後殺生代表？ 5.這項指標為負值的人有-> 張耕淯、聶歐瑪、李盈鋒、里金斯、林宜輝、錢肯尼而領航猿和鋼鐵人大多都為負值，可能勝率太低所致，也可能體系有很大的問題 6.另外有一項指標是看各球員被分到的群，在全部裡面排名第幾我原本想當作觀察有誰應該得到更多上場時間的指標，但容毅燊名列前矛讓我有點懷疑 7.以結果來看，應該模型表現沒有很好，未來再找找看有沒有衡量的指標做為參考也歡迎對數據有興趣的板友們一起討論、集思廣益！ - 附註： [1]這個過程參考自UCLA的一篇論文：https://tinyurl.com/544k9dkf [2]https://tinyurl.com/2e6y5qfr 其中除了各區域命中率以外皆有使用順便問一下有沒有高人可以指點如何爬這種網站？慢慢複製好累...... [3]有興趣的板友推薦看https://tinyurl.com/4vhbkww3 非常淺顯易懂！ [4]群數的決定辦法是土法煉鋼，從分2群到分10群，各跑1000次看結果哪個最好 [5]最後附上各隊前六名：勇士 -> 塞瑟夫 > 曾文鼎 > 林書緯 > 林志傑 > 曾祥鈞 > 張宗憲國王 -> 李愷諺 > 簡祐哲 > 林仕軒 > 林力仁 > 陳俊男 > 楊興治領航猿-> 陳冠全 > 林耀宗 > 李家慷 > 林正 > 溫立煌 > 盧峻翔攻城獅-> 辛巴 > 李家瑞 > 朱雲豪 > 陳堅恩 > 高國豪 > 吳岱豪夢想家->吉爾貝克> 李德威 > 楊盛硯 > 林俊吉 > 吳永盛 > 陳振傑鋼鐵人-> 布朗 > 王柏智 > 王律翔 > 班尼特 > 鄭德維 > 盧哲毅 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.64.12.30 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/basketballTW/M.1657227507.A.232.html ※ 編輯: chih2loveu (61.64.12.30 臺灣), 07/08/2022 05:07:09

推

wu7706070

07/08 05:14, 1年前 , 1^F

07/08 05:14, 1^F

可能但就要看重播重新紀錄才行就太累了xD

推

wayne5992

07/08 05:14, 1年前 , 2^F

07/08 05:14, 2^F

→

miniUU

07/08 05:14, 1年前 , 3^F

07/08 05:14, 3^F

→

miniUU

07/08 05:14, 1年前 , 4^F

07/08 05:14, 4^F

→

miniUU

07/08 05:17, 1年前 , 5^F

07/08 05:17, 5^F

P的規定是可以三前兩後或兩前三後~

→

BLABLA007

07/08 05:20, 1年前 , 6^F

07/08 05:20, 6^F

→

BLABLA007

07/08 05:20, 1年前 , 7^F

07/08 05:20, 7^F

→

BLABLA007

07/08 05:21, 1年前 , 8^F

07/08 05:21, 8^F

因為目前沒有客觀數據可以確定誰是主力（比較接近的可能是USG%？這我有放）也無法證明所謂主力在場上對球隊是好處但你說的也很有道理，所以目前想到的是那就乾脆限制平均上場時間要多於24分鐘符合的有31位下去做，最後得到的結果是：第一隊->辛巴、李家瑞、李愷諺、吳永盛、林書緯第二隊->湯瑪士、呂政儒、簡浩、高國豪、吳家駿感覺結果比較合理一點，相似度也有上升 ※ 編輯: chih2loveu (61.64.12.30 臺灣), 07/08/2022 05:31:48

推

lcall

07/08 05:29, 1年前 , 9^F

07/08 05:29, 9^F

推

deathfire

07/08 05:31, 1年前 , 10^F

07/08 05:31, 10^F

→

deathfire

07/08 05:32, 1年前 , 11^F

07/08 05:32, 11^F

→

awheaton311

07/08 06:04, 1年前 , 12^F

07/08 06:04, 12^F

→

awheaton311

07/08 06:05, 1年前 , 13^F

07/08 06:05, 13^F

沒錯，這個問題困擾我好多個晚上QQ 看來還有很長一段路要走......

→

awheaton311

07/08 06:09, 1年前 , 14^F

07/08 06:09, 14^F

→

awheaton311

07/08 06:09, 1年前 , 15^F

07/08 06:09, 15^F

→

awheaton311

07/08 06:09, 1年前 , 16^F

07/08 06:09, 16^F

推

cweilun

07/08 06:10, 1年前 , 17^F

07/08 06:10, 17^F

推

lucy2244

07/08 06:10, 1年前 , 18^F

07/08 06:10, 18^F

→

lucy2244

07/08 06:10, 1年前 , 19^F

07/08 06:10, 19^F

對，而且常見增加sample的方法感覺好像都不太適用？小弟才疏學淺，目前想不太到有什麼解決方法@@

推

a53189360

07/08 06:20, 1年前 , 20^F

07/08 06:20, 20^F

推

shifa

07/08 06:58, 1年前 , 21^F

07/08 06:58, 21^F

shifa大整理數據的想法也讓我受益匪淺！ ※ 編輯: chih2loveu (61.64.12.30 臺灣), 07/08/2022 07:05:44

推

sniperlin

07/08 07:07, 1年前 , 22^F

07/08 07:07, 22^F

推

Wardyal

07/08 07:09, 1年前 , 23^F

07/08 07:09, 23^F

→

Wardyal

07/08 07:09, 1年前 , 24^F

07/08 07:09, 24^F

都有！德威就算了家瑞一直名列前矛讓我這個家瑞黑好難受 ※ 編輯: chih2loveu (61.64.12.30 臺灣), 07/08/2022 07:13:19

推

sniperlin

07/08 07:14, 1年前 , 25^F

07/08 07:14, 25^F

推

MinatoFlash

07/08 07:42, 1年前 , 26^F

07/08 07:42, 26^F

→

MinatoFlash

07/08 07:42, 1年前 , 27^F

07/08 07:42, 27^F

推

lens82801

07/08 07:48, 1年前 , 28^F

07/08 07:48, 28^F

推

lionjona

07/08 07:53, 1年前 , 29^F

07/08 07:53, 29^F

→

lionjona

07/08 07:54, 1年前 , 30^F

07/08 07:54, 30^F

推

njvm

07/08 07:55, 1年前 , 31^F

07/08 07:55, 31^F

以這次資料來說可能不會有更好的結果加上類神經現在是我的弱項，所以沒有使用這部分之後會再去研究，感謝建議！

還有 36 則推文

還有 3 段內文

per36的問題是可能放大雜訊所以目前主流的進階數據應該都比較少這麼做

推

NDlillard

07/08 10:32, 1年前 , 68^F

07/08 10:32, 68^F

推

Peter911

07/08 10:43, 1年前 , 69^F

07/08 10:43, 69^F

你沒說我還真沒注意到這一點xD 看來真的還有很長的路要走~

推

AngelNo13

07/08 10:48, 1年前 , 70^F

07/08 10:48, 70^F

→

AngelNo13

07/08 10:48, 1年前 , 71^F

07/08 10:48, 71^F

推

Joshuaian

07/08 10:48, 1年前 , 72^F

07/08 10:48, 72^F

這種苦差事可能真的很閒才能做xD

推

johnbill

07/08 10:55, 1年前 , 73^F

07/08 10:55, 73^F

推

johnbill

07/08 11:09, 1年前 , 74^F

07/08 11:09, 74^F

有想過，但一時想不到一個好的方法做篩選但目前應該會朝這方面去做功課，看看怎麼做感謝建議！

推

joeytoast

07/08 11:17, 1年前 , 75^F

07/08 11:17, 75^F

推

komexxx

07/08 11:40, 1年前 , 76^F

07/08 11:40, 76^F

推

komexxx

07/08 11:42, 1年前 , 77^F

07/08 11:42, 77^F

有時間的話一定！

推

whenhowxyz12

07/08 11:45, 1年前 , 78^F

07/08 11:45, 78^F

推

NXT0614

07/08 12:05, 1年前 , 79^F

07/08 12:05, 79^F

推

breakfastboy

07/08 12:05, 1年前 , 80^F

07/08 12:05, 80^F

→

breakfastboy

07/08 12:05, 1年前 , 81^F

07/08 12:05, 81^F

是用 Linear regression，我竟然忘了可以從迴歸下手晚點會試試看，感謝建議！

推

milton93

07/08 12:18, 1年前 , 82^F

07/08 12:18, 82^F

→

SuikaJasper

07/08 12:32, 1年前 , 83^F

07/08 12:32, 83^F

→

SuikaJasper

07/08 12:32, 1年前 , 84^F

07/08 12:32, 84^F

→

SuikaJasper

07/08 12:32, 1年前 , 85^F

07/08 12:32, 85^F

我相信這都會成為之後真正解決問題的養分！

推

HSPHHPM2HP

07/08 13:09, 1年前 , 86^F

07/08 13:09, 86^F

→

HSPHHPM2HP

07/08 13:09, 1年前 , 87^F

07/08 13:09, 87^F

大數法則的確是開個玩笑xD 不過我這次是為了取加權平均(精確度太差) 應該不會有p-hacking的問題......嗎？

推

Celtic8879

07/08 13:19, 1年前 , 88^F

07/08 13:19, 88^F

推

dream52312

07/08 13:33, 1年前 , 89^F

07/08 13:33, 89^F

推

subarusti

07/08 13:33, 1年前 , 90^F

07/08 13:33, 90^F

推

deangood01

07/08 14:43, 1年前 , 91^F

07/08 14:43, 91^F

推

frank901212

07/08 15:46, 1年前 , 92^F

07/08 15:46, 92^F

※ 編輯: chih2loveu (27.52.194.174 臺灣), 07/08/2022 18:22:58

推

tengod00

07/08 18:44, 1年前 , 93^F

07/08 18:44, 93^F

→

Rattlesnake

07/08 19:24, 1年前 , 94^F

07/08 19:24, 94^F

→

Rattlesnake

07/08 19:26, 1年前 , 95^F

07/08 19:26, 95^F

推

richard88502

07/08 21:47, 1年前 , 96^F

07/08 21:47, 96^F

→

richard88502

07/08 21:47, 1年前 , 97^F

07/08 21:47, 97^F

好！感謝！馬上來去學QQ ※ 編輯: chih2loveu (61.64.12.30 臺灣), 07/09/2022 00:15:30

‣ 返回看板[ basketballTW ] 籃球

‣ 更多 chih2loveu 的文章

文章代碼(AID): #1YnqZp8o (basketballTW)

討論串 (同標題文章)

完整討論串 (本文為第 1 之 2 篇)：

排序：最舊先 | 最新先 | 留言數

閒聊

[閒聊] 嘗試以機器學習排出P+前三隊嘗試以機器學習排出P+前三隊

chih2loveu

1年前, 07/08

閒聊

Re: [閒聊] 嘗試以機器學習排出P+前三隊 Re: 嘗試以機器學習排出P+前三隊

tony790927

1年前, 07/08

在新視窗開啟完整討論串 (共2篇)

‣ 返回看板[ basketballTW ] 籃球

‣ 更多 chih2loveu 的文章

文章代碼(AID): #1YnqZp8o (basketballTW)