分享兩個網路看來的想法,有錯的地方就算了,不用太認真。
1.地平線效應:
根據zen的開發者的說法,人機第四局末,無理手連發的背後原因,可能
是地平線效應。這個效應是說,阿狗對於目前情勢的預想能力有局限,
它判斷是蠻準的,不過可能在30手之內神準,30手之後稍微準。所以30
就是阿狗的地平線。試想下列情境,阿狗遭遇一個難局,它現在還在長
考中,目前的考慮過的變化都覺得無解,大概最樂觀的是 a-b-c-d-e
這個變化,勝率48%。
忽然,他看到一條相對樂觀的變化,w-x-y-...-a-b-c-d-e,勝率51%,
他後來就選了這個變化。只是這個變化的好,是個假象,僅僅是把
a-b-c-d-e 這個變化用一堆先手 w-x-y-z-...推出30步的範圍,然後
因為30步以外的勝率估測不太準,就高估到了51%。後來阿狗當然就死得
很難看。當然以後阿狗地平線增加後就不會常常看到阿狗崩潰了。
2.動態貼目:
其實要程式模仿人的行為有點不科學,要阿狗贏棋,你就讓它知道怎樣
叫贏棋就好,不要再叫它學有的沒的,比如說叫它贏多目一點,這往往讓
阿狗學壞了,反而贏不了棋。如果真的要學,曾看過有人提過動態貼目的
概念,大概就是一開始有三隻阿狗,它們分別是在貼目5.5、7.5、9.5的
環境下學棋的。開局就讓7.5的那隻下,其他兩隻就在旁邊話修,並且評估
勝率。隨著局面演變,如果目前7.5的狗覺得勝率80%,9.5的狗覺得勝率
70%,9.5的狗就會說:滾啦贛,換我來下。這樣下去,9.5的狗如果沒崩潰
,盤面至少就會贏對手9.5目。(假設狗執黑)
相反的,如果目前局面悲觀,7.5的狗覺得前途茫茫,只有45%勝率,決定要
崩潰了,5.5的狗就會說:慢著,我覺得還有50%勝率,先由我接手撐著,等
你之後心情好一點再來繼續。之後對手下了個緩著,7.5的狗突然覺得勝率
回到50%,就一腳把5.5的狗踢下主控台,接手棋局。當然了,以上只是虎爛
的,有效沒效完全沒驗證過,當馬路消息聽聽就好。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.242.197.37
※ 文章網址: https://www.ptt.cc/bbs/GO/M.1478064931.A.D93.html
推
11/02 14:06, , 1F
11/02 14:06, 1F
推
11/02 14:08, , 2F
11/02 14:08, 2F
→
11/02 14:08, , 3F
11/02 14:08, 3F
→
11/02 14:21, , 4F
11/02 14:21, 4F
推
11/02 20:49, , 5F
11/02 20:49, 5F
※ 編輯: aaaba (27.242.197.37), 11/02/2016 21:31:58
推
11/03 02:03, , 6F
11/03 02:03, 6F
→
11/03 02:03, , 7F
11/03 02:03, 7F
→
11/03 02:04, , 8F
11/03 02:04, 8F
推
11/04 10:03, , 9F
11/04 10:03, 9F
討論串 (同標題文章)