[轉錄] Ed Kupfer關於球員分類的研究成果 from …

看板NBAGM作者 (微熱的肛溫)時間18年前 (2006/06/01 19:24), 編輯推噓11(1102)
留言13則, 10人參與, 最新討論串1/1
原文出自APBRmetrics by Ed Kupfer http://sonicscentral.com/apbrmetrics/viewtopic.php?t=668 譯文出自hoopCHINA by 想象競合犯 http://www.hoopchina.com/articles/column/analysis/2006-04-13/817.html ※題材很特別,姑勿論其結果如果,就作者和譯者的用意跟目的也值得佩服學習 ================================================================================ 本文翻譯自APBR論壇的一個討論串,標題是"Clustering Players",作者Ed Kupfer是數據 沉迷者,前幾個月我曾翻譯過他另一篇運用因子分析來歸類球員的文章,看上去也蠻BT的。 其實原作者和翻譯者象大多數球迷一樣都是統計學門外漢。 球員歸類是一個冷門話題,我們更喜歡討論球員能力高低之類的事情。之所以翻譯這篇文章 ,主要還是被原作者孜孜不倦的研究精神所打動,畢竟翻譯者在HC好歹也掛著一個虛名,自 己寫不出什麼有價值的東西,只好去翻譯一些真正達人的作品了,假如HC還有其他對數據分 析感興趣的朋友,那我也總算起到了一點廣而告之的作用吧。--譯者 ================================================================================ 我的一大愛好就是依據球員的實際表現,對照他們的場上位置,來給他們進行分類。現代籃 球比賽跟從前相比早就不是一回事了,我認為再用傳統的五個位置來區分球員,意義不大。 為了更貼合當今籃球比賽的實際狀況,我們已經研究了很多更準確的數據來取代命中率之類 的原始數據,我想我們同樣應該有些更好的方法給球員進行分類。 最近我運用了聚類分析的手段來處理這個問題。聚類分析是統計學中一種常用的分析工具, 它直接對給予的數據進行分類,而不需要考慮目標變量,它不需要研究各組自變量之間的特 徵,而是在聚類完成之後才去歸納類之間的異同。我不打算在這裡詳細解說聚類分析的數學 原理,大家能理解聚類分析的邏輯意義便可,這並不難。 聚類分析有很多不同的運算方法,我這裡簡單地把它們分成兩類:層次分析(HCA)與非層 次分析(NHCA)。層次分析會返回一個樹型結構圖,這很有用。比如你把一個大家族的人口 進行層次分析,它便會返回一張清晰的族譜,我們由該族譜便可以研究遠親之間的血緣距離 。類似地,當我們把層次分析運用到球員分類上,以球員的各項數據作為輸入量,我們也能 得到一張關於球員類型的樹狀圖。比如下面這表: | +--------------------+-------------------+ | | Frontcourt Backcourt | | +---------+----------+ +---------+----------+ | | | | Primary offensive non-offesnive Primary offensive non-offesnive options players options players Kirilenko Griffin Ford RBowen Slater Kaman Cassell Augmon Yao Voskuhl Hudson BBowen 這張圖僅依據了三種輸入數據,所以得到的只是一個粗放的分類結果。這種方法還是很有用 的,在以後我也許還會進行更多的層次分析。 目前我更想研究的其實是球員功能在其職業生涯中的變化。做這樣的研究,需要考慮更多的 數據。問題在於,假如我要輸入從1978年起算所有球員的所有數據,層次聚類分析法的計算 量將大到崩潰。幸運的是,統計學者發明了一些偷懶的法則來規避巨大的運算量,我把這些 新的運算法稱為非層次聚類分析,其中使用最廣泛的一種方法稱為K-MEANS(K最近鄰法), 「K」是一個值,即你指定電腦返回的分類組數。K-MEANS與層次聚類的區別在於,它不需要 電腦自行給數據歸類,而是由你來指定一個分類的規模。我不是很想運用這種偷懶的運算方 法,因為實際上我並不瞭解球員的個人數據究竟應該分為多少個類別。 還好,還有別的方法。著名統計軟件SPSS裡有一種「二階段聚類分析」,我並不太清楚所謂 的「二階段」是怎麼個二階段法,但這種運算方法自動並有效地解決了「應該分多少類別」 的問題,使我的研究終於變得可行。 HT 球員身高 WT 球員體重 2Att 平均每分鐘兩分球出手次數 3Att 平均每分鐘三分球出手次數 FTA 平均每分鐘罰球次數 PF 平均每分鐘犯規次數 USAGE:進攻權重 OReb 進攻籃板比例 DReb 防守籃板比例 TO 犯規比例 (原文筆誤 按:應為"失誤") AST 隊友受助攻比例 BLK 對手被蓋帽比例 STL 對手每次進攻(POSS)被斷球比例 qAST 個人受助攻比例 以上所有數據均經過節奏調整(球隊節奏/聯盟平均節奏),如果球員單賽季曾效力多支球 隊則以球員該賽季平均數值乘以球員的上場時間計算。 聚類運算後,返回七種類別,我把這七種類別分別命名為:低位球員Post Players), 持球搖擺人Driving Swingmen),人類勝利雪茄Human Victory Cigars),雜魚Miscellaneous Role Players),防守專家Defensive Specialists),後場控球手Backcourt Ballhandlers),以及外線射手Outside Shooters)。這些名稱是我依據分類 結果中各類別球員的特徵而起的。 每一類別球員都有自己的「類別項」,比如說低位球員的類別項是:高防守籃板數,高兩分 命中率,高罰球次數,中等犯規數,中等失誤數,中等助攻數,低三分次數……。 具體如下: 低位球員 高: DReb, 2Att, FTA, WT, HT, USAGE, OReb, qAST, BLK 中: PF, TO, STL, AST 低: 3Att Eddy Curry, Dirk Nowitzki, Drew Gooden, Stromile Swift, Juwan Howard, Zendon Hamilton, Rasheed Wallace, Patrick Ewing, Elton Brand, Lamar Odom等等。 以上十名球員即被歸入了低位類,這也是最易分辨的一組分類。 持球搖擺人 高: 2Att, USAGE, FTA 中: STL, qAST, AST, 3Att, OReb, HT 低: DReb, WT, PF, BLK, TO Lebron James, Jeryl Sasser, Allen Iverson, Ronald Murray, Ricky Davis, Richard Jefferson, James Cotton, Isiah Rider, Kobe Bryant, Ron Mercer等等。 你不會經常看到Jeryl Sasser的名字出現在AI旁邊吧,但我想他們也許是一類人,能力有高 低罷了。 人類勝利雪茄 高: PF, TO, STL, FTA, USAGE 中: OReb, qAST, 2Att, 3Att, HT, WT, DReb, BLK 低: AST Lawrence Funderburke, Tim James, Rusty LaRue, Terry Mills, Jermaine Jackson, Rashard Lewis, Tierre Brown, Damone Brown, Jason Hart, Jerome James等等 這是最難以描述的一類球員,他們天差地別,什麼樣的都有,很難在邏輯上找到他們的共通 之處。在本帖的末尾我繪製了一張球員類型地圖,你會發現,其他類型的球員大多集中在一 個區域裡,而雪茄們則散佈在地圖的各個位置。他們有一個相似的地方,高出場場次對比低 場均時間,這類球員的場均出場時間僅在5分鐘左右,遠低於第二低的類別(防守專家--15 分鐘),他們是些垃圾時間清掃員。必須指出的是「場均出場時間」並不是我選擇的原始輸 入數據之一,電腦在毫不知情的情況下自動把他們分在了一類!這可以當作本次數據實驗成 功的一個小標誌。 眼尖的話,你會反駁:Rashard Lewis怎麼可能被歸入「雪茄」類?!我的解釋是,Lewis在 99年加入聯盟的那個賽季只打了145分鐘,這影響了他的整體狀況。如果我們對他做一個年 度分析,則會得到這樣的進化結果:雪茄-->雜魚-->雜魚-->射手-->搖擺人-->射手-->射手 。 雜魚 高: qAST 中: HT, OReb, WT, PF, DReb, STL, TO, BLK, 3Att, 2Att, FTA 低: USAGE, AST Michael Curry, Marcus Haislip, Kenny Thomas, Detlef Schrempf, Jonathan Bender, Kevin Edwards, Robert Horry, Carlos Rogers, Ansu Sesay, Vincent Yarbrough等等 他們是一些角色球員,我把他們稱為「雜魚」是因為,他們在進攻端難有作為,但各項數據 都達到了平均水平。與雪茄球員的區別在於,這些雜魚廣泛分佈於五個傳統意義的位置上。 以下是雜魚或說角色球員在各傳統位置上所佔的比例: PG 1% G 5% SG 6% GF 16% SF 14% F 28% PF 16% FC 13% C 2% 這些球員在賽場上比雪茄們要活躍得多,他們有自己的獨到本領,雖然在我選擇的數據中難 以體現。 防守專家 高: WT, HT, BLK, DReb, OReb, PF, qAST 中: TO, FTA 低: USAGE, 3Att, AST, STL, 2Att Charles Oakley, Jahidi White, Clarence Weatherspoon, Dennis Rodman, Hakeem Olajuwon, Jackson Vroman, Joe Kleine, Rasho Nesterovic, Maciej Lampe, Reggie Slater等等 對這類球員更準確的稱呼應該是「防守巨人」因為他們大多是中鋒和大前鋒,籃板和犯規指 標很高,沒什麼助攻,出手數也不多。Reggie Slater也算防守專家?……我喜歡《Saved By The Bell》裡的Reggie Slater,但我確實對猛龍的Reggie沒什麼印象了。他有防守麼? 嗯,這個…… 後場控球手 高: AST, STL, TO 中: 3Att, USAGE, FTA, 2Att 低: qAST, HT, WT, OReb, DReb, BLK, PF Chris Childs, Kevin Ollie, Allen Iverson, Keyon Dooling, Charlie Ward, Will Avery, Speedy Claxton, Tony Parker, Mike James, Kenny Anderson等等 看後面的球員分佈圖就會知道,這些控球手們與另一類球員搖擺人緊挨在一塊兒,主要由助 攻和失誤兩項體現他們之間的差別。他們與傳統的5位置分類法最接近,大多都是:控球後 衛。 外線射手 高: 3Att 中: AST, STL, qAST, USAGE 低: OReb, 2Att, PF, DReb, BLK, FTA, HT, WT, TO Bobby Phills, James Robinson, Glen Rice, Sean Elliott, Hubert Davis, Jim Jackson, Rasual Butler, Pat Garrity, Matt Bullard, Johnny Newman等等 這些球員的投籃次數最突出,其他大量的數據都在低水平。 他們在傳統位置中占的比例如下: PG 12% G 19% SG 28% GF 21% SF 9% F 8% PF 2% FC 1% C 1% --- 這些聚類可以用二維圖形來表示,比如我很喜歡的ASCII圖: +-------------------------------------------------------------+ |_)('.)('.)('.)('.)('.)('.)('.)('.)( |_____|_____|_____|_____|| |/ )('.)('.)('.)('.)('.)('.)('.)( ____|_____|_____|_____|___| | \_\ )('.)('.)('.)('.)('.)('.)('.)( |_____|_____|_____|_____|| |__ _ )('.)('.)('.)('.)('.)('.)( ____|_____|_____|_____|___| |/ \/ /('.)('.)('.'.'.'.'.'('.)('.)( |_____| ___ |_____|_____|| | \_\/ \)('.)('.'.DRIVING '.)('.)( ____|__.POST..__|_____|___| |__ ___ )('.)( SWINGMEN )('.)('.)( |____.PLAYERS.____|_____|| |/ \/ / \/ )('.)'.'.'.'.'..)('.)( ____|_____ _____|_____|___| | \_\/ \_\/('.)('.)('.)('.)('.)('.)( |_____|_____|_____|_____|| |__ ___ ___('.)('.)('.)('.)('.)( ____|_____|_____|_____|___| |/ \/ / \/ / \)('.)('.)('.)('.)('.)( |_____|_____|_____|_____|| | \_\/ \_\/ \_\ )('.)('.)('.)('.)( ____|_____|_____|_____|___| |__ ___ ___ __ )('.)('...'.)('.)(_|_____|_____|_____|_____|| |/ \/ / \/ / \/ /('.)('.).2.)('.)( ____ ___|_____|_____|___| | \.\/ \.\/ \.\/ \)('.)('...'.)('.)(_|__ 1 |_____|_____|_____|| |_..BACKCOURT..___ )('.)('.)('.)(|_____ _____|_____|____|_.-.| |/ BALLHANDLERS / \ )('.)('.)...)( |_____|___.-._'-._,-'_.-.| | \_\/ \_\/ \_./ \_\)('.)('.)( .3.******|._,-'_.-._'-._,-'_.-.| |__ ___ ___.6.__ __)('.)('.)-..*******._,-'_.-._'-._,-'_.-.| |/ \/ / \/ / \. / \/ /***********.4:*****._,-'_.-._'-._,-'_.-.| | \_\/ \_\/ \_\/ \_\/ ***********..******._,....-._'-._,-'_.-.| |__ ___ ___ ___ _*****'*'.ROLE.******._,.5.;-._'-._,-'_.-.| |/ \/ / \/ / \/ / \/ _****:PLAYERS.***-._,-._.-._'-._,-'_.-.| | \_\/ \_\/ \_\/ \_\ 7. ***'''''''''***-._,-.;.;.;.;._,-'_.-.| |__ ___ ___ ___ _.-**************-._,.DEFENSIVE.;-'_.-.| |/ \/ / \/ / \/ /-._,-' *************'-._.SPECIALISTS.;'_.-.| | \_\/ \_\/ \_\/ _.-.************'-._,..;.;.;.;.;,-'_.-.| |__ ___ ___ '-._,-' ***********'-._,-'_.-._'-._,-'_.-.| |/ \/ / \/ /.-._OUTSIDE_.-._***********'-._,-'_.-._'-._,-'_.-.| | \_\/ \_\/ SHOOTERS '*********_'-._,-'_.-._'-._,-'_.-.| |__ ___ _.-._ _.-._ ********_'-._,-'_.-._'-._,-'_.-.| |/ \/ /_,-' '-._,-' '-********_'-._,-'_.-._'-._,-'_.-.| | \_\/ _.-._ _.-._ ******._'-._,-'_.-._'-._,-'_.-.| | '-._,-' '-._,-' '-._*****._'-._,-'_.-._'-._,-'_.-.| | _ _.-._ _.-._ **'**._'-._,-'_.-._'-._,-'_.-.| | '-._,-' '-._,-' '-._,****._'-._,-'_.-._'-._,-'_.-.| |-._ _.-._ _.-._ **-._'-._,-'_.-._'-._,-'_.-.| +-------------------------------------------------------------+ 標號 標籤 ----- ----------------- 1 低位球員(POST PLAYERS) 2 持球搖擺人(DRIVING SWINGMEN) 3 人類雪茄(HUMAN CIGARS) 4 雜魚/角色球員(MISC ROLE PLAYERS) 5 防守專家(DEFENSIVE SPECIALISTS) 6 後場控球手(BACKCOURT BALLHANDLERS) 7 外線射手(OUTSIDE SHOOTERS) 圖上的數字標號所在的位置是組別圖形的質心。各類別球員的分區都比較明顯,只有人類雪 茄例外,他們分散在圖形各個部分。 看下圖才能瞭解他們的所在位置。(點擊以下查看大圖) http://0rz.net/541rf 最後的幾張圖表現的是每項數據對各類球員的權重: http://0rz.net/201ps (完) ============================================== 原作者的研究很過癮,但是,為球員歸類有什麼現實意義呢?我們直觀地可以感覺到不同球 員在場上發揮的不同作用,傳統的5位置區分法確實不能具體描述我們直觀的感覺,但我們 有必要搞出一種複雜的方法去準確描述我們的感覺麼?這樣做又能有什麼好處? 其實我翻譯完全文也並不瞭解原作者分析結果的應用功效,只隱約覺得它或許有可能運用在 一些方面,但我不肯定,也說不上來什麼意義。 但是,也許這根本不重要,原作者運用數據分析發表長篇大論,也許並沒有什麼企圖心,他 之所以這樣做,只是因為他喜歡這樣做,他愛用數字來較勁。這就好比有的朋友喜歡寫籃球 散文,有的朋友喜歡與人爭論,有的朋友喜歡灌水……寫散文、爭論、灌水又於籃球有什麼 好處呢?這些不過都是我們愛籃球的表達方式罷了,並不涉及什麼「功利」和「意義」。有 的人喜歡用文字來表達他們的愛,有的人喜歡用口水,也有的人喜歡用數字,我們大家並沒 有什麼本質區別。愛籃球本來就應該是多樣化的。 其實HOOPER來自社會各行各業,或者正在學校裡學著各種不同的學科,大可不必把自己局限 於傳統的討論。每個朋友都可以用自己的專業知識或者自己的興趣所在去闡釋我們的籃球運 動。不僅僅是數據分析,還可以從教練組出發,討論技戰術的博弈,還可以從經濟領域出發 ,討論籃球經營之道,還可以從美學出發,討論體育攝影之要素,還可以從法律出發,討論 球員合同的法律價值……等等等等,每個人都發揮自己所長,用自己與眾不同的方式來熱愛 籃球,不也很有意思嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.118.224.14 ※ 編輯: Goooooooog1e 來自: 140.118.224.14 (06/01 19:37)

06/01 19:42, , 1F
推你的後記,雖然我看不懂正文。
06/01 19:42, 1F

06/01 20:07, , 2F
令人肅然起敬的研究!
06/01 20:07, 2F

06/01 20:08, , 3F
(雖然看完內容讓我有點 orz 的傾向 XD)
06/01 20:08, 3F

06/01 20:11, , 4F
好強...!!
06/01 20:11, 4F

06/01 21:16, , 5F
還蠻有趣的說
06/01 21:16, 5F

06/01 21:30, , 6F
居然出現James Cotton.............
06/01 21:30, 6F

06/01 21:32, , 7F
.........................................................
06/01 21:32, 7F

06/01 23:35, , 8F
XD
06/01 23:35, 8F

06/02 01:50, , 9F
= =
06/02 01:50, 9F

06/02 18:25, , 10F
數據魔人阿..
06/02 18:25, 10F

06/02 18:28, , 11F
不過..Schrempf居然是雜魚..XD......
06/02 18:28, 11F

06/03 13:37, , 12F
schremph這雜魚也太大條了吧
06/03 13:37, 12F

06/04 23:54, , 13F
潛在類別分析.... 可以借轉嗎 謝謝 :)
06/04 23:54, 13F
文章代碼(AID): #14Viw1d7 (NBAGM)