Re: [心得] 桌遊想德美-期望值多少

看板BoardGame作者dorminia (重新出發)時間8年前 (2017/06/02 00:31)推噓14(14推 0噓 6→)

留言20則, 14人參與討論串2/3 (看更多)

恩這我本行，所以不得不跳出來說一下了圖文好讀版：http://chulankao.blogspot.tw/2017/06/ep18.html ※ 引述《north4909 (魚子醬)》之銘言： : 這一系列的影片是我整理出來，關於遊戲設計的基礎知識 : 目前有十八集，希望能夠持續每週更新（汗），算是拋磚引玉吧 : 桌遊想德美 Ep.18《期望值多少》 : 心理學家特沃斯基設計了一個實驗，他弄了兩個玩遊戲拿獎金的方案給參與的人選，受測 : 者只能選擇其中一個，我把數字稍微換一下讓大家好理解 : 有圖+有聲版本 : https://youtu.be/a93UmVKvtM0

: 抱歉一直把人家的名字唸錯~ : A方案的獎金和中獎機率是，33%中大獎120000元、66%中二獎100000元、1%沒中獎 : B方案的獎金和中獎機率是，100%中二獎100000元 : 兩個方案都很賺，但選哪一個會賺更多呢？我們來算一下期望值 : A方案33%120000元、66%100000元、1%0元，期望值是105600元 : B方案100%100000元，期望值就是100000元 : 以期望值來說，A方案比B方案高出5600，應該是比較好的選項，但最後實驗的結果，只有 : 18%的人選擇A方案，而82%的人都選擇B方案穩穩拿10萬就好 : 欸照理說玩家不是應該選擇期望值比較高的行動才對嗎？這裡面漏掉了一個很重要的部分 : ：人們主觀上對於風險、機率、期望值的評估，跟事實常常會有很大的落差 ”人們主觀上對於風險、機率、期望值的評估，跟事實常常會有很大的落差” 這句話對特沃斯基（Amos Tversky）的展望理論（Prospect Theory）誤解就大了。這個理論是效用函數論（Utility Theory）的進階版本，所以我一步一步來介紹。 1. 首先，效用函數論的大概念是：人們會去極大化他的”效用”，或著白話一點，”爽度”。注意，不是極大化”錢”，是”爽”。這是有差別的，因為100元增加到200元，以及10000元增加到10100元都是增加100元，但前者比後者增加的更爽。更明確的說，效用函數認為每個人在有X塊錢的時候的爽度是U(X)，而他會試著去極大化U(X)的期望值EU(X)，而非X的期望值EX。事實上，後續的實證研究我們已經知道，人類的U，一次微分大於零，二次微分小於零，三次微分大於零，等等等。在這個狀況下，人類自然會理性的採取所謂保守一點的策略，因為這個策略的U(X)期望值最大。這其中並沒有任何非理性的成份。 2. 特沃斯基的展望理論則是進一步說，你的效用函數並不只取決於你現在有多少錢，還取決於你過去有多少錢。簡單的說，同樣是10000元，你從10100損失到10000，還是從9900賺到10000，兩個最後的爽度是不一樣的。這會進一步讓你更加採取保守的策略。 3. 請注意，在以上的討論中，人都確實知道正確的機率、風險與期望值，並且在正確的資訊下，理性地選擇極大化效用的選項，得到一個保守的策略。所以沒有與事實相差很多的這件事情。效用函數另外有處理如果資訊有不確定性的狀況，但仍然是理性人假設下的討論。 : ---------- : 在這個實驗裡，我們明明白白的告訴受測者，A方案失敗的機率只有1%，按理來說是很低 : 的風險，而且有33%蠻大的機會可以拿到12萬，多拿兩萬 : 但就人類心理的運作模式來說，比起追求最大的成功，通常更強烈的部分是去避免最大的 : 失敗、最大的痛苦 : 在這個情境下，最痛苦的情況就是，賭一把選了方案A，然後抽到籤王那1%沒有中獎，等 : 於是10萬塊白白飛了，這實在是太痛苦惹 : 所以大部分的人寧願退一步、選擇絕對安全的B方案來避免這種情況發生，就算拿少一點 : 也沒關係 : 特沃斯基的結論是，當人有相對安全的選項時，他們是非常保守的，大多數的人寧願選擇 : 低風險、拿少一點，而非冒一點點的險去賭一把拿更多並不是”寧願退一步”。如上所說，在這個理論下，人類是極大化效用而非極大化”錢”。他只是選擇了期望效用（爽度）最大的選項，而那個選項不是期望金額最多的選項，僅此而已。 : ---------- : 但有趣的是，如果把實驗的問題完全顛倒過來，從拿獎金變成少賠錢，現在你要賠10萬 : 方案A是可以賭一把有1%的機率不用賠錢，但有33%要多賠2萬 : 方案B則是直接賠10萬 : 這個時候，人們反而又會跑去選擇方案A賭一把看看能不能不用賠錢，很妙吧？ : 為什麼33％能賺更多錢的時候，你不敢賭那1％； : 33％要賠更多錢的時候，你反而就敢賭了？ : 因為人天生有一種趨向+-0的心態，這也說明了賭徒之所以會傾家蕩產的原因... 我是不知道這個”趨向+-0的心態”是指什麼，但這只是展望理論的基本範例：賺跟賠的爽度是不對稱的，即使賺賠的幅度一樣。然後賭徒傾家蕩產的原因是Overconfidence而非展望理論... 如果照展望理論，賠痛的比賺爽的多，所以你一賠就會收手，怎麼還會傾家蕩產？ : 回到遊戲，我們前面學機率學得要死是為了什麼？可以說就是為了來計算期望值 : 遊戲設計者必須知道遊戲裡的每一個行動會帶來多少效益，把這些效益量化之後，才有可 : 能去平衡他們，並往你想要的方向修正和調整 : 這些背後的數值，才是真正替整個遊戲定調的東西，掌握數值的來去，也就能預期玩家們 : 在面對不同的情況下，會做出什麼樣的選擇你自己都引展望理論了，就應該知道說要預期玩家行為，你需要的是玩家的效用函數，而非僅僅是期望值。再次強調，關鍵是極大化預期效用，而非極大化”錢”。 : ---------- : 比如說踩到某一格，會讓你丟一顆6面骰，然後給你跟點數一樣的錢，平均來說踩到這格 : 可以拿多少錢呢？ : 隨著骰子的點數，我們可能拿1元、2元、3元、4元、5元、6元，乘上每一種各自的機率（ : 都1/6），加總起來就是3.5元 : 一顆骰子的期望值是3.5，骰兩顆的話，3.5+3.5就是7，還記得卡坦島嗎？7最容易出現， : 所以你也可以把期望值當成是一個懶人包的概念，幫你指出某一個行動理想上大致傾向帶 : 出多少的數值 : 如果我們改一下，改成踩到這格一樣擲骰，但是只有骰到奇數拿錢、骰到偶數反而要扣錢 : 呢？這時候就會變成+1、-2、+3、-4、+5、-6，乘上機率，總和加起來就是-0.5，也就是 : 說踩到這一格反而平均會扣0.5元 : 當期望值是正的，這一格就比較傾向獎勵；如果是負的，就比較傾向懲罰，看你想要怎麼 : 搭配這裡我又混亂了。所以你現在是站在”玩家心理上的獎勵或懲罰”，還是”期望值上的正負”？以學術的術語，你這裡的獎勵與懲罰，是針對風險中立（Risk Neutral）還是風險趨避（Risk Averse）的人？ : ---------- : 來實際操作看看吧，如果我們給玩家3種法術火、冰、雷，而他們的傷害值與命中率如下 : 火球術最基本，威力是4點傷害，100%命中；冰封球有5點傷害，但是只有80%命中；雷電 : 球威力最強，打一下就40點傷害，但是命中率超爛，只有20% : 假設這3種法術的耗魔都一樣，玩家會想用哪一種呢？算算期望值就知道了 : 火球術100%、4點傷害，所以期望值是4；冰封球80%、5點傷害，0.8x5，期望值一樣是4； : 而雷電球20%造成40點傷害，0.2x40，期望值就是8點傷害 : 火球術跟冰封球都是4點，而雷電球是8點，所以我們可以合理推測，玩家應該會選雷電球 : ，因為它的效益最高，而且高兩倍 : 但這裡有個陷阱，如果今天地圖上的小怪，全部都只有10滴血的話呢？雷電球一次可以轟 : 40滴，但我用不到啊，雖然用火球或冰球要打3下，用雷電球只要1下 : 但最高只有10點傷害的話，20％的命中造成10點傷害，等於期望值只有2，效益反而比火 : 球冰球還要低一半 : 像這類的小地方就要特別注意，很容易變成考量數值的盲點這裡又把事情搞得更混亂了。你現在面臨到的事情是，10滴血或40滴血，在這裡都等於”1隻小怪”，所以你的分數變成一個非線型函數。你的分數還是分數，只是它變成非線性的，極大化的這件事情沒有變。 : ---------- : 最後別忘了，玩家永遠是最大的變數 : 就算你小心合理的平衡了這些數值，玩家也有可能不會照著你所預期的去走，因為他們並 : 不知道這些選項背後的期望值，只能從遊戲當下的實際體驗去感覺 : 比如剛才我們設定的3種法術，你並沒有告訴玩家他們各自的威力和命中率，如果某位玩 : 家用了幾次雷電球，剛好都沒有打中敵人，那他可能就不會再使用雷電球了，因為雷電球 : 的命中率太低，對他而言，這個法術的期望值根本就是0 : 還記得一開始特沃斯基A方案B方案的問題嗎？就算你把背後的數據全都公開，玩家也有可 : 能就是不照你想的走，這也是遊戲設計上很有挑戰性的一環不是，是因為打從一開始，從你引特沃斯基的問題時，你就已經預設人類是依照極大化EU(X)來進行選擇，所以你用極大化EX來設計，當然不能刻畫玩家的行動啊！ : 下一期，我們繼續聊，賭徒心理是怎麼來的，人類又是如何看待風險這回事，敬請期待 : 我是魚子醬，咱們下期再會 : 歡迎訂閱，或者來這找找其他集喔^ ^ : https://www.facebook.com/DavidWangStudio/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.176.38 ※ 文章網址: https://www.ptt.cc/bbs/BoardGame/M.1496334677.A.7E7.html

推

north4909

06/02 00:52, , 1^F

06/02 00:52, 1^F

推

joegypt

06/02 01:02, , 2^F

06/02 01:02, 2^F

→

north4909

06/02 01:03, , 3^F

06/02 01:03, 3^F