[閒聊] 閱讀WMO排行榜:A Statistical Approach

看板WOW作者 (Macroprocessing)時間13年前 (2011/04/25 14:43), 編輯推噓30(30067)
留言97則, 27人參與, 最新討論串1/1
關於 pve dps 的平衡與否,大家心裡都有一把尺或者參考的標準,一個常見 的參考數據就是 WMO/WOL 的排行榜,上榜數量的高低和各職業最前列的排名 常常是一個被拿來論戰的點,但是這些排行榜是不是真的可以這樣看呢? 以下的資料(模擬的WMO DPS紀錄)是由Mathwave公司的EasyFit來產生的, 之後比較簡單的資料處理是用excel進行的,我們假設同職業的dps分布 都是 gaussian (要不然要用啥 XD) 我會盡量用高中等級的統計來解釋,起碼一些怪名詞還是別出現好,這裡不是統計 學版 XD 1. 職業本身變異性對排行榜的影響 請看 Excel 檔案 http://www.megaupload.com/?d=31RW0DNV 假設職業A和職業B兩個職業各有某王的1000筆資料上傳,假如大家裝備都差不多 職業A和職業B的平均dps都是30000,但職業A的傷害變數很大,標準差會到6000, 職業B相對穩定,他們的標準差只有3000 這兩個職業模擬出來的分布大約像這樣 http://www.glog.cc/1_pic/0E6EE26A09063.jpg
事實上你能看到,職業A因為本身變異大,出現的最大最小極值自然也特別大 假如你取最前面的幾名來看(就是現在WMO/WOL那樣),大概會做出A職比B職威的結論 Class A Class B Top 1% (top 10) 46099.78588 38273.48347 Top 5% (top 50) 42276.38634 36296.03269 Top 10%(top 100) 40384.66923 35376.46425 Top 25%(top 250) 37531.52244 33978.94519 Top 50%(top 500) 34731.49391 32552.72866 AVG 29856.55372 30166.04668 但是這兩個職業的平均期望值是一樣的,考慮其分布方式相同,同條件下職A打贏 職B或倒過來,兩者的機率會是一樣的,前者的結論跟這個就不一致了。 換句話說,職業本身的變異性會讓人在看極值的時候被帶到錯誤的結論,甚至 有可能期望值低的因為變異性較大,造成出現的極值反而比期望值高的大的狀況, 這樣子來判斷的結論就出現了偏差。 2. 職業本身人口數對排行榜的影響 請看Excel檔案 http://www.megaupload.com/?d=HNNPIPHB 假設職業A和職業B他們威力可說相當,打某王平均皆為30000 dps,標準差皆為 3000,但是職業B因為套裝造型太醜沒人要玩,所以職業A有3000筆資料上傳, 職業B只有1000筆 這兩個職業的模擬分佈大概像這樣 http://www.glog.cc/1_pic/0E6EE2DF5FF4B.jpg
其照比例看的平均大概像這樣 Class A Class B Top 1% 38253.66189 38146.13278 Top 5% 36244.61259 36199.14679 Top 10% 35299.60868 35212.99643 Top 25% 33818.93452 33780.08532 Top 50% 32325.56346 32346.23414 Average 29893.54547 29977.45931 都滿一致的,但是假如依照WMO/WOL的排行榜,你會看到這個 Class A Class B Top 10 39427.10323 38146.13278 Top 25 38460.43129 37120.03562 Top 50 37658.00759 36199.14679 Top 100 36792.49363 35212.99643 假如只看到這份資料,應該結論也會變成 A > B 但是要注意的是,同樣是 Top 10,A職是前百分之0.33,B職是前百分之一, 在所有分佈條件/參數都相當的情況下,前百分之0.33較高也很正常,更不用說數 量大會造成出現較大的極值次數變高。 但是這兩個職業的平均期望值是一樣的,考慮其分布方式相同,同條件下職A打贏 職B或倒過來,兩者的機率會是一樣的,前者的結論跟這個就不一致了。 換句話說,職業本身的人口數差異會讓人在看極值的時候被帶到錯誤的結論,甚至 有可能期望值低的因為人口數較多較大,大極值出現得多,造成出現的極值反而比 期望值高的大的狀況,這樣子來判斷的結論就出現了偏差。 --- 那實際上要怎麼比呢? 拿前50/100/whatever作平均一定是有問題的,已前述 當然你可以把這一段資料當作對母體(i.e 同職業全體)做的取樣,然後選擇適 當的檢定方式去檢定其差異性是否成立,或者複數職業的話就是做 ANOVA 來檢 定這複數個母體是否平均有差異 不過很不幸的,這些取樣都是 biased 的,因此有結論也不算數 比較好的方法是: 1. 做定量分析直接給出固定的平均值作為解,然而現在這個遊戲要這樣做越來越 難了,特別是很多隱藏的參數或式子我們不知道,可以翻前兩天熱狗大推韌性 公式修正的就可以知道,其實很多隱藏的東西要推都要先做一些實驗取樣,再 用已知的數學模型套套看去推 2. 像 Simulation Craft 一樣做大量模擬(Monte-carlo method),這要花很長時間 同時每次跑的結果都會有差,另外也有人批評其環境太理想化,但是有些實驗變數 本來就是要控制的 不過無論如何都比拿極值出來說嘴對,實際上我上面講的東西沒有用到什麼專門的 統計學,很多都只是邏輯問題而已,為什麼說看資料要有一點統計的 sense,因為 統計就是在教大家怎麼解讀資料,你不會解讀的話出來的結論會很可怕 另外永遠不要忘記,最後的檢定目標都是比母體平均,而母體要由經過適當取樣的 資料才能代表,而不是前五十或兩百。 ---

變成懷疑人家認知,你這樣等於在質疑人家團隊跟Wol資料
1. 錯誤的解讀WOL/WMO資料比不看還糟 2. 打得快不代表他懂得多,世界第一個拿到太陽井橘弓的獵人,Last Resort的Stefang 當時因為寶石插得很怪在WOW.com被砲的盛況我還有印象,但這不影響該公會世界 第六全破太陽井的事實,我們應該高興這個遊戲要倒王不是光靠每個人盯著排行榜 或者只靠各種最佳化就辦得到。 3. 關於上排行榜這件事情,我以前還在打公會團的時候,有一天黑廟阿卡馬不知道為啥 打了 6000+ dps(冰封前夕的T6畢業混SWP裝火法),就霸佔那隻王排行,連CWOW無限 刷太陽井的都壓不過去直到那個排行停止統計,要說原因就是,剛好火球全爆而且 數字都偏大(怎麼知道偏大?我自己一直在用火法實戰我當然知道啥時哪隻王數字會 長啥樣子),上榜你需要的不只是技術和團隊配合,有時候運氣才是決勝關鍵。 -- [G][小灰]: 欸蛋糕 <神樣>公會網站2011/02/13正式開張 [G][Marculescu]: 蛤 http://www.godlike-guild.com/ [G][小灰]: 你很閒對吧 計數器第15000者抓圖證明可獲冷毛口頭嘉獎一次 [G][Marculescu]: 有一點 [G][小灰]: 來做個公會網吧!只有討論區看起來超虛的 [G][Marculescu]:蛤? Marculescu <神樣> Wrathbringer-TW -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.42.94.96

04/25 14:45, , 1F
蛋糕我覺得有些人講再多都沒用...
04/25 14:45, 1F

04/25 14:47, , 2F
講給講了有用的人聽就好 :p
04/25 14:47, 2F

04/25 14:48, , 3F
一邊上統計一邊偷推ˊˋ
04/25 14:48, 3F

04/25 14:50, , 4F
聽得懂的人就不會出來戰這個了。 =w=
04/25 14:50, 4F

04/25 14:53, , 5F
所以我一直以來認為WMO是給同職業比較用的
04/25 14:53, 5F

04/25 14:54, , 6F
撇除運氣因素,妳應該要跟同裝備等級的差不多DPS。
04/25 14:54, 6F

04/25 14:54, , 7F
偏偏有些職業就是很吃運氣...
04/25 14:54, 7F

04/25 14:55, , 8F
但是你王也不是一次就倒,總有幾次是你運氣好的時候
04/25 14:55, 8F
其實我覺得你看有沒有作對事就好 例如法術施放比例要接近

04/25 14:56, , 9F
wmo有辦法看到某個職業的總體平均值嗎??
04/25 14:56, 9F
不知道 :( 大家都喜歡看大的

04/25 15:06, , 10F
最近WMO是不是沒更新呀
04/25 15:06, 10F

04/25 15:08, , 11F
眼睛只有數字的人還是看不懂這篇分析文的
04/25 15:08, 11F

04/25 15:09, , 12F
其實有另外一個可能是該職業技術需求較高...所以分佈變大
04/25 15:09, 12F

04/25 15:09, , 13F
造成強的打出來就是高,弱的打出來很弱...
04/25 15:09, 13F

04/25 15:11, , 14F
統計都是看資料解讀,看的角度不同意義就不同。
04/25 15:11, 14F
基本上這是 "解讀" 的差異 統計的結論本身都是很單純的 0.0

04/25 15:13, , 15F
WMO數據跟團隊也有關,越快倒王數字越漂亮,尤其是有大招的
04/25 15:13, 15F

04/25 15:17, , 16F
wmo改85以後資料量少很多很多
04/25 15:17, 16F

04/25 15:17, , 17F
用圖也可以解讀成[天時地利人和]都有xx職業就是強一點XD
04/25 15:17, 17F

04/25 15:22, , 18F
反正log都一樣 交叉對比就行了
04/25 15:22, 18F

04/25 15:22, , 19F
就光看wmo跟wol就評論也不準 排名好的有些都有特別buff
04/25 15:22, 19F

04/25 15:23, , 20F
火球全爆太猛了XD
04/25 15:23, 20F

04/25 15:24, , 21F
看過最扯的是吃Arcane Haste 這根本超強buff..
04/25 15:24, 21F

04/25 15:52, , 22F
這個英文副標題覺得很眼熟,不過想不起來在哪看過...
04/25 15:52, 22F

04/25 16:10, , 23F
看不懂幫推,我只看自己職業各首領排行這樣伸手牌準嗎
04/25 16:10, 23F

04/25 16:10, , 24F
我指的是追求MAX的DPS參考@@?
04/25 16:10, 24F
你可以看 但你要知道他是怎麼打出來的 我必須說大部分上榜的原因三種 1. 故意衝 (ex. 奈法AE骷髏) 2. 運氣好 3. 堆buff (法師還可以偷一堆怪buff 更威)

04/25 16:15, , 25F
你如果看到一個DPS很高時,能知道有哪些原因造成該DPS比
04/25 16:15, 25F

04/25 16:17, , 26F
別人高,那樣才有意義吧? 之前火法有篇文有講到運氣問題
04/25 16:17, 26F

04/25 16:17, , 27F
那邊運氣好多爆了幾次或哪個時間點有爆擊,造成了DPS比
04/25 16:17, 27F

04/25 16:19, , 28F
較高的結果,不然只看數字的話,也只能乾瞪眼還是不知道
04/25 16:19, 28F

04/25 16:19, , 29F
為啥能那麼高
04/25 16:19, 29F

04/25 16:20, , 30F
哈 之前看到文章就在考慮要不要跳坑出來說一下統計的事
04/25 16:20, 30F

04/25 16:21, , 31F
結果Parhelia你就先跳了
04/25 16:21, 31F
我對於拿著有問題的資料講得很開心這件事很感冒 :x

04/25 16:30, , 32F
嗯嗯我有看打的出MAX的技能打法跟用的多寡,感恩解答!!
04/25 16:30, 32F
還有 30 則推文
還有 3 段內文
04/25 18:53, , 63F
書,然後沒辦法證明他哪裡不可信的典型
04/25 18:53, 63F
1. 我從來沒說wmo資料有問題 有問題的是 "看著他的top50平均來判定各職高下" 這件事情 這件事情是用極值去代表母體 這篇是要來講這件事的問題 2. 第二個範例的參數相當是假設 他是控制變因用來呈現母體大小本身也會影響極值 3. 某段取樣能不能代表母體要檢驗是必然的 但能嗎?

04/25 19:07, , 64F
這部份我當然了解,我想表達的就是這篇東西完全沒辦法證明
04/25 19:07, 64F

04/25 19:08, , 65F
拿top50看機體強弱是非常有問題的事。特別是我不認為wow的
04/25 19:08, 65F

04/25 19:08, , 66F
dps分布會是常態分布,而當這個前提被質疑的時候,整篇的立
04/25 19:08, 66F

04/25 19:09, , 67F
論都會出現問題,你的第三點就導致了第一點很可能站不住腳
04/25 19:09, 67F

04/25 19:10, , 68F
我相信以你對統計的了解也會很清楚這種參數影響多的資料往
04/25 19:10, 68F

04/25 19:10, , 69F
往不符合常態分布不是嗎?
04/25 19:10, 69F
是的 這本來就是在簡化模型 或者說假如把操作因素去除 大部分隨機的東西都是 binomial 的 (ex. 爆擊/某些機率觸發的高 DPCT 法術的觸發) 在這種情況下最終結果用常態來模擬是比較容易的 所以才有前述假設 不過模擬的問題在其他分布仍然是做得出來的

04/25 19:11, , 70F
另外我還是很贊成這篇提出一些可能的想法,但這些可能只是
04/25 19:11, 70F

04/25 19:12, , 71F
教大家在看wmo時學會過濾掉一些太扯的data,除此之外只是推
04/25 19:12, 71F

04/25 19:13, , 72F
理「可能會有這些問題」是不是真的有這些問題,如你言,無
04/25 19:13, 72F

04/25 19:13, , 73F
法驗證。
04/25 19:13, 73F
我覺得我們想的東西只是嚴謹度差異 我也只是要說只拿那些資料比較各職強度 結論會有問題 特別是相當多人只用那些太扯的資料就在做結論了

04/25 19:20, , 74F
嗯嗯,所以只是想提醒這些東西,但如同我所言,我個人是覺
04/25 19:20, 74F

04/25 19:20, , 75F
得wow的傷害並非常態分布(這是個人經驗XD,因此提出了這些
04/25 19:20, 75F

04/25 19:21, , 76F
東西,另外感謝理性討論,我本來覺得很可能會戰起來 XXD
04/25 19:21, 76F
傷害是怎麼分布的倒是一個大問題 就像現在要定量去做 dps 期望值也異常困難啊.... 其實我重點只有不要拿排行榜去比強度 這樣跟實際狀況很可能不相同而已 只要你不是鎖甲公牛我都很 nice 的 0.0v

04/25 19:25, , 77F
我覺得排行這種東西是滿容易被質疑是否為極值的,最常見
04/25 19:25, 77F

04/25 19:25, , 78F
果然還是有人不懂,講再多都沒用
04/25 19:25, 78F

04/25 19:25, , 79F
的例子是國家的所得排行,已開發國家的所得排行會較前面
04/25 19:25, 79F

04/25 19:26, , 80F
但同時我們都知道他們都有共同的問題就是貧富差距大,對
04/25 19:26, 80F

04/25 19:27, , 81F
照回WMO或WOL排行,其實這樣的推論不會太沒有立足點
04/25 19:27, 81F

04/25 19:28, , 82F
其實一個比較簡單的想法是,大家可以想一下台灣的平均所得
04/25 19:28, 82F

04/25 19:29, , 83F
和M型社會間的關係,在非常態分布的狀況下,極值和平均間的
04/25 19:29, 83F

04/25 19:29, , 84F
關係很難確定(舉個比較極端的例子,極值恰巧為眾數時
04/25 19:29, 84F

04/25 19:31, , 85F
所以看 SimulationCraft 就不用擔心分布有問題這點
04/25 19:31, 85F
simulationcraft比較怕的是模擬程式機制和實際做上去的遊戲不一樣 最後跑出一堆 garbage 來 囧 不過目前為止是沒有啥太扯的事情就是 ※ 編輯: Parhelia 來自: 114.42.94.96 (04/25 19:34)

04/25 19:35, , 86F
SimulationCraft下面的模擬統計資料,有心的人自然會去看
04/25 19:35, 86F

04/25 19:36, , 87F
至少在傷害分佈,跟變異數等等,都可以觀察出來
04/25 19:36, 87F

04/25 19:36, , 88F
當然那個模擬跟實戰的確有很大差距
04/25 19:36, 88F

04/25 19:37, , 89F
定量分析的話我只能說,有在嘗試做的人都會知道難度有多高
04/25 19:37, 89F

04/25 19:38, , 90F
當然 SimulationCraft 也有他的問題在,但至少母體方面 OK
04/25 19:38, 90F

04/25 22:35, , 91F
shoray不對吧,統計上M型社會並不存在,因為沒有個眾
04/25 22:35, 91F

04/25 22:35, , 92F
數做為極值
04/25 22:35, 92F

04/26 01:53, , 93F
身為統研大推你這篇
04/26 01:53, 93F

04/26 07:14, , 94F
推這篇
04/26 07:14, 94F

04/26 07:55, , 95F
社會學上M型社會也不存在,大前研一只是拿馬克思的無產化
04/26 07:55, 95F

04/26 07:56, , 96F
冷飯重炒, 再標一個新名稱這樣.
04/26 07:56, 96F

04/26 09:16, , 97F
辛苦了@@真熱心...
04/26 09:16, 97F
文章代碼(AID): #1DjHWfRr (WOW)