Re: [心得] 桌遊想德美-期望值多少

看板BoardGame作者 (Cython)時間8年前 (2017/06/02 15:11), 8年前編輯推噓2(2011)
留言13則, 3人參與, 最新討論串3/3 (看更多)
我也非本行(?)不過幫上一篇d大換個白話、簡化一點的例子好了 假如今天你的所有身家總共一億元 有個賭博機會,50%你會贏兩億元 50%你會輸一億元 如果確定賭博是公平不會被出老千的 要賭嗎? 如果你的目標是最大化錢的期望值 那很顯然是要賭 但是如果考慮的是你所持有錢的效用 就完全不是這樣 一億元是很有錢 贏了變成三億元是...更有錢(?) 但是輸了就是從富翁變成一無所有 非常嚴重 想必沒有人會覺得(更有錢 和 很有錢 )的差距 比(很有錢 和一無所有) 還大吧 所以這樣考慮之下 當然是不賭 只是錢的期望值是很容易量化算出結果的 所謂效用的期望值卻不容易 (就算只是玩桌遊恐怕也不容易) 然而原po舉的例子其實所謂人的不理性選擇可能反而是比較符合效用期望值較大者XD 在桌遊中也時常發生這種 錢的效用跟錢的多寡不是成線性關係的情形 那麼所謂"不是應該選擇期望值較高的選項嗎?"的說法 就說不太通了 ※ 引述《dorminia (重新出發)》之銘言: : 恩這我本行,所以不得不跳出來說一下了 : 圖文好讀版:http://chulankao.blogspot.tw/2017/06/ep18.html : ※ 引述《north4909 (魚子醬)》之銘言: : : 這一系列的影片是我整理出來,關於遊戲設計的基礎知識 : : 目前有十八集,希望能夠持續每週更新(汗),算是拋磚引玉吧 : : 桌遊想德美 Ep.18《期望值多少》 : : 心理學家特沃斯基設計了一個實驗,他弄了兩個玩遊戲拿獎金的方案給參與的人選,受測 : : 者只能選擇其中一個,我把數字稍微換一下讓大家好理解 : : 有圖+有聲版本 : : https://youtu.be/a93UmVKvtM0
: : 抱歉一直把人家的名字唸錯~ : : A方案的獎金和中獎機率是,33%中大獎120000元、66%中二獎100000元、1%沒中獎 : : B方案的獎金和中獎機率是,100%中二獎100000元 : : 兩個方案都很賺,但選哪一個會賺更多呢?我們來算一下期望值 : : A方案33%120000元、66%100000元、1%0元,期望值是105600元 : : B方案100%100000元,期望值就是100000元 : : 以期望值來說,A方案比B方案高出5600,應該是比較好的選項,但最後實驗的結果,只有 : : 18%的人選擇A方案,而82%的人都選擇B方案穩穩拿10萬就好 : : 欸照理說玩家不是應該選擇期望值比較高的行動才對嗎?這裡面漏掉了一個很重要的部分 : : :人們主觀上對於風險、機率、期望值的評估,跟事實常常會有很大的落差 : ”人們主觀上對於風險、機率、期望值的評估,跟事實常常會有很大的落差” : 這句話對特沃斯基(Amos Tversky)的展望理論(Prospect Theory)誤解就 : 大了。這個理論是效用函數論(Utility Theory)的進階版本,所以我一步 : 一步來介紹。 : 1. 首先,效用函數論的大概念是:人們會去極大化他的”效用”,或著白話 : 一點,”爽度”。注意,不是極大化”錢”,是”爽”。這是有差別的, : 因為100元增加到200元,以及10000元增加到10100元都是增加100元,但前 : 者比後者增加的更爽。 : 更明確的說,效用函數認為每個人在有X塊錢的時候的爽度是U(X),而他會 : 試著去極大化U(X)的期望值EU(X),而非X的期望值EX。 : 事實上,後續的實證研究我們已經知道,人類的U,一次微分大於零,二次 : 微分小於零,三次微分大於零,等等等。在這個狀況下,人類自然會理性的 : 採取所謂保守一點的策略,因為這個策略的U(X)期望值最大。這其中並沒有 : 任何非理性的成份。 : 2. 特沃斯基的展望理論則是進一步說,你的效用函數並不只取決於你現在有多 : 少錢,還取決於你過去有多少錢。簡單的說,同樣是10000元,你從10100損 : 失到10000,還是從9900賺到10000,兩個最後的爽度是不一樣的。這會進一 : 步讓你更加採取保守的策略。 : 3. 請注意,在以上的討論中,人都確實知道正確的機率、風險與期望值,並且 : 在正確的資訊下,理性地選擇極大化效用的選項,得到一個保守的策略。所 : 以沒有與事實相差很多的這件事情。效用函數另外有處理如果資訊有不確定 : 性的狀況,但仍然是理性人假設下的討論。 : : ---------- : : 在這個實驗裡,我們明明白白的告訴受測者,A方案失敗的機率只有1%,按理來說是很低 : : 的風險,而且有33%蠻大的機會可以拿到12萬,多拿兩萬 : : 但就人類心理的運作模式來說,比起追求最大的成功,通常更強烈的部分是去避免最大的 : : 失敗、最大的痛苦 : : 在這個情境下,最痛苦的情況就是,賭一把選了方案A,然後抽到籤王那1%沒有中獎,等 : : 於是10萬塊白白飛了,這實在是太痛苦惹 : : 所以大部分的人寧願退一步、選擇絕對安全的B方案來避免這種情況發生,就算拿少一點 : : 也沒關係 : : 特沃斯基的結論是,當人有相對安全的選項時,他們是非常保守的,大多數的人寧願選擇 : : 低風險、拿少一點,而非冒一點點的險去賭一把拿更多 : 並不是”寧願退一步”。如上所說,在這個理論下,人類是極大化效用 : 而非極大化”錢”。他只是選擇了期望效用(爽度)最大的選項,而那 : 個選項不是期望金額最多的選項,僅此而已。 : : ---------- : : 但有趣的是,如果把實驗的問題完全顛倒過來,從拿獎金變成少賠錢,現在你要賠10萬 : : 方案A是可以賭一把有1%的機率不用賠錢,但有33%要多賠2萬 : : 方案B則是直接賠10萬 : : 這個時候,人們反而又會跑去選擇方案A賭一把看看能不能不用賠錢,很妙吧? : : 為什麼33%能賺更多錢的時候,你不敢賭那1%; : : 33%要賠更多錢的時候,你反而就敢賭了? : : 因為人天生有一種趨向+-0的心態,這也說明了賭徒之所以會傾家蕩產的原因... : 我是不知道這個”趨向+-0的心態”是指什麼,但這只是展望理論的基本範例: : 賺跟賠的爽度是不對稱的,即使賺賠的幅度一樣。 : 然後賭徒傾家蕩產的原因是Overconfidence而非展望理論... 如果照展望理論 : ,賠痛的比賺爽的多,所以你一賠就會收手,怎麼還會傾家蕩產? : : 回到遊戲,我們前面學機率學得要死是為了什麼?可以說就是為了來計算期望值 : : 遊戲設計者必須知道遊戲裡的每一個行動會帶來多少效益,把這些效益量化之後,才有可 : : 能去平衡他們,並往你想要的方向修正和調整 : : 這些背後的數值,才是真正替整個遊戲定調的東西,掌握數值的來去,也就能預期玩家們 : : 在面對不同的情況下,會做出什麼樣的選擇 : 你自己都引展望理論了,就應該知道說要預期玩家行為,你需要的是玩家的 : 效用函數,而非僅僅是期望值。再次強調,關鍵是極大化預期效用,而非極 : 大化”錢”。 : : ---------- : : 比如說踩到某一格,會讓你丟一顆6面骰,然後給你跟點數一樣的錢,平均來說踩到這格 : : 可以拿多少錢呢? : : 隨著骰子的點數,我們可能拿1元、2元、3元、4元、5元、6元,乘上每一種各自的機率( : : 都1/6),加總起來就是3.5元 : : 一顆骰子的期望值是3.5,骰兩顆的話,3.5+3.5就是7,還記得卡坦島嗎?7最容易出現, : : 所以你也可以把期望值當成是一個懶人包的概念,幫你指出某一個行動理想上大致傾向帶 : : 出多少的數值 : : 如果我們改一下,改成踩到這格一樣擲骰,但是只有骰到奇數拿錢、骰到偶數反而要扣錢 : : 呢?這時候就會變成+1、-2、+3、-4、+5、-6,乘上機率,總和加起來就是-0.5,也就是 : : 說踩到這一格反而平均會扣0.5元 : : 當期望值是正的,這一格就比較傾向獎勵;如果是負的,就比較傾向懲罰,看你想要怎麼 : : 搭配 : 這裡我又混亂了。所以你現在是站在”玩家心理上的獎勵或懲罰”, : 還是”期望值上的正負”?以學術的術語,你這裡的獎勵與懲罰,是 : 針對風險中立(Risk Neutral)還是風險趨避(Risk Averse)的人? : : ---------- : : 來實際操作看看吧,如果我們給玩家3種法術火、冰、雷,而他們的傷害值與命中率如下 : : 火球術最基本,威力是4點傷害,100%命中;冰封球有5點傷害,但是只有80%命中;雷電 : : 球威力最強,打一下就40點傷害,但是命中率超爛,只有20% : : 假設這3種法術的耗魔都一樣,玩家會想用哪一種呢?算算期望值就知道了 : : 火球術100%、4點傷害,所以期望值是4;冰封球80%、5點傷害,0.8x5,期望值一樣是4; : : 而雷電球20%造成40點傷害,0.2x40,期望值就是8點傷害 : : 火球術跟冰封球都是4點,而雷電球是8點,所以我們可以合理推測,玩家應該會選雷電球 : : ,因為它的效益最高,而且高兩倍 : : 但這裡有個陷阱,如果今天地圖上的小怪,全部都只有10滴血的話呢?雷電球一次可以轟 : : 40滴,但我用不到啊,雖然用火球或冰球要打3下,用雷電球只要1下 : : 但最高只有10點傷害的話,20%的命中造成10點傷害,等於期望值只有2,效益反而比火 : : 球冰球還要低一半 : : 像這類的小地方就要特別注意,很容易變成考量數值的盲點 : 這裡又把事情搞得更混亂了。你現在面臨到的事情是,10滴血或40滴血,在這裡都 : 等於”1隻小怪”,所以你的分數變成一個非線型函數。你的分數還是分數,只是它 : 變成非線性的,極大化的這件事情沒有變。 : : ---------- : : 最後別忘了,玩家永遠是最大的變數 : : 就算你小心合理的平衡了這些數值,玩家也有可能不會照著你所預期的去走,因為他們並 : : 不知道這些選項背後的期望值,只能從遊戲當下的實際體驗去感覺 : : 比如剛才我們設定的3種法術,你並沒有告訴玩家他們各自的威力和命中率,如果某位玩 : : 家用了幾次雷電球,剛好都沒有打中敵人,那他可能就不會再使用雷電球了,因為雷電球 : : 的命中率太低,對他而言,這個法術的期望值根本就是0 : : 還記得一開始特沃斯基A方案B方案的問題嗎?就算你把背後的數據全都公開,玩家也有可 : : 能就是不照你想的走,這也是遊戲設計上很有挑戰性的一環 : 不是,是因為打從一開始,從你引特沃斯基的問題時,你就已經預設 : 人類是依照極大化EU(X)來進行選擇,所以你用極大化EX來設計,當然 : 不能刻畫玩家的行動啊! : : 下一期,我們繼續聊,賭徒心理是怎麼來的,人類又是如何看待風險這回事,敬請期待 : : 我是魚子醬,咱們下期再會 : : 歡迎訂閱,或者來這找找其他集喔^ ^ : : https://www.facebook.com/DavidWangStudio/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.104.115 ※ 文章網址: https://www.ptt.cc/bbs/BoardGame/M.1496387516.A.E3F.html

06/02 15:20, , 1F
正所謂,如果你很有錢你可以投機,你只有一點點錢不該投
06/02 15:20, 1F

06/02 15:20, , 2F
機,如果你沒有錢你只能投機
06/02 15:20, 2F

06/02 15:27, , 3F
我覺得這比喻拿來桌遊類比不太合理的地方 現實的錢
06/02 15:27, 3F

06/02 15:27, , 4F
大部分的人都會很珍惜 但在遊戲中如果能一發逆轉 或是
06/02 15:27, 4F

06/02 15:28, , 5F
大幅領先 我覺得願意賭的人會非常多 畢竟中了會超爽
06/02 15:28, 5F

06/02 15:28, , 6F
但輸了也不過就是輸了一場遊戲而已
06/02 15:28, 6F
其實要表達的是,要搞清楚你要最大化的是什麼東西,並非認為策略應該保守還是積極 之類的. 換成遊戲也一樣,如果今天輪到你最後一動就結束遊戲,你現在領先十分, 要做動作A或B其中一個 A做了保證扣五分 B做了一半機率扣15分,一半機率加15分 那麼你選哪個? 如果你的最高目標就是贏得這場遊戲的話 當然是選A囉 如果目標是"最大化自己的分數不管輸贏"那才是選B(真的有人是這樣嗎?) 要反過來換成拼一發逆轉的例子也可以呀 改成你落後十分 要做動作A或B其中一個 A做了保證加五分 B做了一半機率扣50分,一半機率加15分 那麼你選哪個? 選A期望值是正的但是不可能讓你贏得遊戲 B期望值負很大卻還有希望 那要贏的話當然是選B

06/02 15:49, , 7F
三樓,這用預期效用期望值來解釋依然相符合,以你的例
06/02 15:49, 7F

06/02 15:49, , 8F
子來說就是玩桌遊而言面對事件(賭博)產生的結果不同的U
06/02 15:49, 8F

06/02 15:49, , 9F
(x)乘以不同的機率函數E加總,而預期效用期望函數ΣEU(
06/02 15:49, 9F

06/02 15:49, , 10F
x)為正而趨向選擇執行事件如此。
06/02 15:49, 10F

06/02 15:51, , 11F
只是效用函數難以量化又因人而異,所以在描述上才會變
06/02 15:51, 11F

06/02 15:51, , 12F
得這麼抽象,但這方面實際上是可以跟統計結合歸納出一
06/02 15:51, 12F

06/02 15:51, , 13F
般性的結果。
06/02 15:51, 13F
※ 編輯: Django (111.243.104.115), 06/02/2017 17:16:36
文章代碼(AID): #1PCG-yu_ (BoardGame)
文章代碼(AID): #1PCG-yu_ (BoardGame)