Re: [閒聊] 嘗試以機器學習排出P+前三隊

看板basketballTW作者 (Chiao)時間1年前 (2022/07/08 10:45), 1年前編輯推噓13(13022)
留言35則, 16人參與, 1年前最新討論串2/2 (看更多)
感謝大大有趣的文~ 剛看了下UCLA論文後有幾個機器學習的問題想問,因文長用回文形式,若不適合本版我再刪 文 1. 關於features數目,原論文似乎自己挑18個數據,把一些數據如總籃板數、失誤(他們? 得失誤比較無法顯示好壞表現)等拿掉 而原po似乎是遠多於18再用2次降維方式後再K-Mean 不過論文看起來他們只是拿降維後的做2D visual而已 (下圖) https://i.imgur.com/XbFWIRD.jpg
拿去K-Mean的是沒降維的,畢竟只有18維。這邊或許可以自己挑出類似features,才不會太 雜亂數據影響。 以下是他們選的 https://i.imgur.com/pYlMp8f.jpg
2. 論文最後是有說到其實「每個群是類似的」 如下圖, 每個群跟隊伍排名的線性關係p-value都很大(p-value 越大信心程度很小) https://i.imgur.com/nx3TZqw.jpg
“This suggests that there is no relationship between how good a team is and mem bership in a particular cluster. “ 就是幾乎沒關係的意思 文中提到重點是「離每個分群質心的距離」才能顯現好壞球員,例如在x群中的離x群的中心 越遠,則球員越猛 https://i.imgur.com/FZ7CUxK.jpg
可看到p-value才0.02左右(0.98的信心) 簡言之,如果直接拿每個群當成一二三隊似乎不適合,可能用與跟質心的距離排出各個球員 才比較好。 而原PO現在分群中的第一隊,可能有些人是比較靠近質心,有些人則是遠離質心,比較好的 式可以多列出他們與質心的距離,越大則是越厲害 不過上述都是建立在你是follow這論文的作法,如果你有修改的話可能就不是我上述所說的 一樣了。 話說我也可能有錯,只是小弟的一些看法,歡迎指正。 發此文的用意只在推崇科學與運動的結合,很感動台籃版越來越活絡,也感謝原PO的effort ---- Sent from BePTT on my iPhone 7 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.29.154 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/basketballTW/M.1657248300.A.D9E.html

07/08 10:48, 1年前 , 1F
推推
07/08 10:48, 1F

07/08 10:49, 1年前 , 2F
推,大力推!
07/08 10:49, 2F

07/08 10:50, 1年前 , 3F
07/08 10:50, 3F

07/08 10:52, 1年前 , 4F
推這篇
07/08 10:52, 4F

07/08 10:54, 1年前 , 5F
i7 原po手機好能撐
07/08 10:54, 5F

07/08 10:57, 1年前 , 6F
最近才從6s剛換成7 二手而已,小弟常摔手機,摔到
07/08 10:57, 6F

07/08 10:57, 1年前 , 7F
才不會心痛XD
07/08 10:57, 7F

07/08 11:00, 1年前 , 8F
所以這篇是用分群去界定一二三隊的範圍,然後根據
07/08 11:00, 8F

07/08 11:00, 1年前 , 9F
分群去找跟勝場有最高度相關的球員?
07/08 11:00, 9F
我的理解:這篇UCLA的論文是先找出”類似的球員”的分群,然後根據所有30隊nba隊伍 算出每隊nba隊伍含有第一群、第二群的比例,(例如咖喱、k湯在第四群, 勇士隊含有第四 群 球員比例是2/n, 同樣地算出含有第一、二…群比例,以及其他隊如籃網隊的各群比例),? 現算出來含有各群比例跟不同nba 隊伍之間的排名沒有實質線性關係,進而間接發現其實每個分群其實都是均勻,沒有明顯哪 個群比哪個群厲害。後來他們發現是群中的球員到群的質心距離才能代表球員好壞

07/08 11:02, 1年前 , 10F
07/08 11:02, 10F

07/08 11:04, 1年前 , 11F
推整理,很清楚!
07/08 11:04, 11F

07/08 11:11, 1年前 , 12F
好文
07/08 11:11, 12F

07/08 11:31, 1年前 , 13F
很好 有文獻探討 也有引用
07/08 11:31, 13F

07/08 11:31, 1年前 , 14F
有點意思
07/08 11:31, 14F

07/08 11:46, 1年前 , 15F
看來台籃板也是一堆ML的高手
07/08 11:46, 15F

07/08 11:56, 1年前 , 16F
每個群裡的球員代表場上表現類似 但越遠離群中心
07/08 11:56, 16F

07/08 11:56, 1年前 , 17F
的球員(離群)代表有較群裡他人不一樣的表現
07/08 11:56, 17F
沒錯!

07/08 12:04, 1年前 , 18F
好像有些字被吃掉了?像第一點:覺得
07/08 12:04, 18F
※ 編輯: tony790927 (122.99.29.154 臺灣), 07/08/2022 13:28:15

07/08 18:34, 1年前 , 19F
感謝原po用心幫我找問題所在!關於第一點我去年也是
07/08 18:34, 19F

07/08 18:34, 1年前 , 20F
只有使用傳統數據,跑出來結果合理但又覺得沒什麼代
07/08 18:34, 20F

07/08 18:34, 1年前 , 21F
表性,今年才野心比較大想增加features,結果還無法
07/08 18:34, 21F

07/08 18:34, 1年前 , 22F
掌握好xD第二點我還真的忘記去試了,雖然我有修改做
07/08 18:34, 22F

07/08 18:34, 1年前 , 23F
法,但或許與質心距離也會是我系統中的key point,
07/08 18:34, 23F

07/08 18:34, 1年前 , 24F
我會再想想怎麼實現和應用,最後再感謝原po一次!!
07/08 18:34, 24F

07/08 19:27, 1年前 , 25F
原來你去年就試過!真用心!
07/08 19:27, 25F

07/08 19:27, 1年前 , 26F
原論文也說可以放多一點features,多一點應該是很
07/08 19:27, 26F

07/08 19:27, 1年前 , 27F
有用,例如效率值、正負、Game Score等進階數據,
07/08 19:27, 27F

07/08 19:27, 1年前 , 28F
但全放可能太多就是
07/08 19:27, 28F

07/08 19:27, 1年前 , 29F
話說你有把結果放GitHub嗎?如果有前處理好的或許
07/08 19:27, 29F

07/08 19:27, 1年前 , 30F
可以考慮釋出,有時間的話我也可以考慮用別的架構
07/08 19:27, 30F

07/08 19:27, 1年前 , 31F
fit看看一個model
07/08 19:27, 31F

07/09 00:17, 1年前 , 32F
因為結果沒很好所以沒打算要上傳 大大如果你要的話
07/09 00:17, 32F

07/09 00:17, 1年前 , 33F
再來信給我 我再把這次的資料給你~
07/09 00:17, 33F

07/09 00:19, 1年前 , 34F
我前處理只有cleaning和正規化而已 之後再試試看怎
07/09 00:19, 34F

07/09 00:19, 1年前 , 35F
麼有系統的features select
07/09 00:19, 35F
文章代碼(AID): #1YnveisU (basketballTW)
文章代碼(AID): #1YnveisU (basketballTW)