Re: [討論] 我還以為是龍傲天,原來是AlphaGo啊

看板CFantasy作者 (小明)時間8年前 (2017/10/19 16:43), 編輯推噓20(20053)
留言73則, 15人參與, 8年前最新討論串4/5 (看更多)
※ 引述《wizardfizban (瘋法師)》之銘言: : 回一下好了,但我要說我對AI的了解很淺,歡迎打臉。 : 單純說遊戲樹: : 遊戲樹就是你在遊戲中每面臨一個選擇時,每個選擇都能畫出分叉,一路下去就有如樹木 : 一樣,這棵樹就叫遊戲樹。 比較正確的名詞是決策樹 decision tree. : AI一開始對圍棋無解是因為圍棋是棋類中遊戲樹算大的,但後來在成功讓AI能選擇遊戲樹 : 特定區域運算的技術後,AI的棋力就開始上升了,最後打贏了人腦。 區域運算是非常早期的算法,這樣做的棋力很差。 從 AlphaGo Zero 的成長中,可以得到很明確的答案,征子是圍棋新手等級 就應該了解的一種圍棋方法,但它卻是一種全棋盤的策略。 所以 AlphaGo Zero 在發展出大量複雜的圍棋手法和定石之後,才學會如何 應對征子。 也就是說對人腦簡單的事情,對電腦來說不一定簡單,使用區域運算方法的 電腦圍棋,都會輕易被哪怕最簡單的全局策略所打敗。 圍棋的決策樹太大是根本問題,所以剪枝方法是其中的關鍵,粗暴硬剪必然 會產生漏洞,早年用專家系統的方式,沒學過就不會下,更是常被極少見的 下法打臉。 最先成功有效的方法是蒙地卡羅樹搜尋法,簡單來說就是隨機選點,在相同 深度的搜尋下失敗次數愈多,進一步搜尋的機率就愈低。 蒙地卡羅方法的基本問題是深度有限,如果一個有效應對的步數超過搜尋的 深度,就無法被發現,目前的電腦圍棋設定大約是二十步。 但這樣對於電腦圍棋來說仍然剪枝不夠,這使得大部分使用蒙地卡羅方法的 圍棋程式,都採用在對方落子處臨近的地方優先選點的方式,不使用純然的 隨機選擇,或者說建立一個有差異性的選點機率函數,取代每個點都有相同 機率的原始做法。 接著很長一段時間,就是開發者用人工的方式微調機率函數,以及排除顯然 不必要和錯誤的選點,電腦圍棋的棋力在這個狀況下緩緩進步。 最後機器學習就在這個地方被引進了,預設的機率函數和人工方法,被使用 歷史資料學習而得的選點程序所取代。 然而機器學習的本身也是需要經過大量運算的,一開始並沒有顯現出比加強 蒙地卡羅方法的運算量的優勢,所以並沒有成為主流方法。 直到 DeepMind 公司使用新的深度學習模型,在其他遊戲中取得令人驚豔的 成果,這個方法才真正被用力實作在電腦圍棋上。 他們採取的是很聰明的做法,單一神經網路的機器學習模型運算成本太高, 那麼就拆成兩個,雖然可能損失具有結合性的部分,但運算成本大幅降低, 再用相當暴力的運算能力,電腦圍棋終於成功打敗了職業棋手。 也就是第一次登上 Nature 雜誌的 AlphaGo 。 在證明這個方向可行之後,此後就是在這個新模型上的各種加強。 而 AlphaGo Zero 則是在算法改進到相當程度後,覺得可以不用再使用兩個 神經網路,重新使用單一神經網路的方式,並改用新的深度殘差網路模型。 單一神經網路使得從零開始的學習真正可行,不然要讓兩個網路一開始就能 配合,會有很大的運氣成分。 : 所以接下來挑戰的目標是更複雜的遊戲 ─ 即時戰略 (RTS)。 : 但目前這個挑戰卡死了...... : 因為遊戲樹太大了,近於無窮大。 : RTS每一秒都要做出大量判斷,偵查、推測再應用到自己戰術上。對比於圍棋這種每回合 : 就是一動,而且遊戲盤面完全公開的模式,RTS要做的運算量太多了。 : 相對之下,人腦就是有法子判斷篩選出正確要注意的資訊而加以運用。 : 所以在RTS的挑戰中,AI目前被卡死了,很多相關學者正在一起努力尋找新的方向。 : 因此,在把變數限定到一定程度之下,AI的確贏過人腦。但在大量變數之下,AI目前不? : 。AI連星海爭霸中單純用作弊來戰鬥的死腦筋電腦對手都打不贏了。 : 也許有一天AI也會攻克RTS領域,然後再向別的領域發起挑戰。那時我們大概又會發現AI : 的極限...... : 我們對人腦的了解還是太少了。 理論上並不是運算量的問題,而是回饋和收斂的問題,圍棋可以加速運算, 下幾百萬盤不是問題,但 RTS 要玩幾百萬場,需要的時間就極為巨大。 而最初始的勝負回饋資料不足,就難以回饋到盤面的優勢判斷,更無法建立 整體策略的評估。收斂的問題也是,變數太多就很難和過往資料比較,也就 難以收斂出結果。 人類學習的效率至今仍遠遠超過機器,在數量短期填補不上的狀況下,如何 提升機器學習的效率,就成了下一個巨大的關卡。 並且單就 RTS 而言,人類有大量的知識,遊戲本身也依賴這些知識來設計, 這讓人類玩遊戲時,可以在一開始就能利用這些知識,獲得不錯的成績, 在學習上的優勢就更加明顯。 所以真的是很大的挑戰,這應該說是機器學習的算法問題比較大。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.28.99 ※ 文章網址: https://www.ptt.cc/bbs/CFantasy/M.1508402618.A.6D1.html

10/19 16:47, 8年前 , 1F
不是傳言暴雪要和他們合作,把阿法狗丟到天梯去爬
10/19 16:47, 1F

10/19 17:00, 8年前 , 2F
理論上只要暴雪把遊戲運算的libs給出來
10/19 17:00, 2F

10/19 17:00, 8年前 , 3F
讓機器學習可以把遊戲速度加快,那他就能有效學習
10/19 17:00, 3F

10/19 17:03, 8年前 , 4F
之前看到好像是希望與玩家對戰學習,而且還要限制霉
10/19 17:03, 4F

10/19 17:03, 8年前 , 5F
限制操作速度
10/19 17:03, 5F

10/19 17:04, 8年前 , 6F
以及開啟戰爭迷霧那些的影響
10/19 17:04, 6F

10/19 17:19, 8年前 , 7F
應該說 如何學習是個關鍵
10/19 17:19, 7F

10/19 17:19, 8年前 , 8F
舉例來說 阿法狗在打星海時 敵方玩家用機槍冰甩槍
10/19 17:19, 8F

10/19 17:20, 8年前 , 9F
那阿法狗是否有辦法學習 或是 判定這是可學習
10/19 17:20, 9F

10/19 17:35, 8年前 , 10F
10/19 17:35, 10F

10/19 17:57, 8年前 , 11F
我還以為走錯版了呢~ 推推
10/19 17:57, 11F

10/19 18:01, 8年前 , 12F
再進一步大概就是「教育」了吧。像直接學會征子
10/19 18:01, 12F

10/19 18:14, 8年前 , 13F
總覺得天網就是這樣被搞出來的 美國還想玩無人艦...
10/19 18:14, 13F

10/19 18:16, 8年前 , 14F
天網是未來科技導致的吧?
10/19 18:16, 14F

10/19 18:20, 8年前 , 15F
第三集 沒未來科技 美國軍方還是作了相關研究 並且
10/19 18:20, 15F

10/19 18:20, 8年前 , 16F
作死讓天網上線 於是....
10/19 18:20, 16F

10/19 18:23, 8年前 , 17F
第三集不就是研究第二集那隻嗎?
10/19 18:23, 17F

10/19 18:30, 8年前 , 18F
哪隻? 第三集作出來的全都不是人形阿...
10/19 18:30, 18F

10/19 18:35, 8年前 , 19F
我記得第二集反派的計算模組是天網的研究基礎
10/19 18:35, 19F

10/19 18:36, 8年前 , 20F
所以第二集主角一行人就把相關資料加晶片全毀了阿
10/19 18:36, 20F

10/19 18:37, 8年前 , 21F
連那家公司都被炸彈炸了
10/19 18:37, 21F

10/19 18:38, 8年前 , 22F
連阿諾也因為自己腦袋裡還有晶片所以決定進鐵水裡
10/19 18:38, 22F

10/19 18:39, 8年前 , 23F
唯一破綻大概是還有一隻手留在工廠內 不過那也跟AI
10/19 18:39, 23F

10/19 18:39, 8年前 , 24F
無關 是美國軍方自己搞的
10/19 18:39, 24F

10/19 18:39, 8年前 , 25F
我還是重看好了
10/19 18:39, 25F

10/19 18:48, 8年前 , 26F
可是現在不是就有電腦對手了 直接把電腦對手的判斷
10/19 18:48, 26F

10/19 18:48, 8年前 , 27F
輸入阿法GO 不就可以開始學習了?
10/19 18:48, 27F

10/19 18:58, 8年前 , 28F
如果直接拿電腦的來抄 那就不是自己學習 而是rule了
10/19 18:58, 28F

10/19 19:02, 8年前 , 29F
現在面臨的問題是決策太多 要怎挑好的決策來實行
10/19 19:02, 29F

10/19 19:02, 8年前 , 30F
如果直接拿現有電腦的來訓練,最後也只不過變成第二
10/19 19:02, 30F

10/19 19:02, 8年前 , 31F
個一模一樣的電腦
10/19 19:02, 31F

10/19 19:03, 8年前 , 32F
因為還是沒解決"怎選擇好的決策"這個問題
10/19 19:03, 32F

10/20 03:37, 8年前 , 33F
暴雪不是已經提供阿法狗使用了嗎 也可以加速遊戲吧
10/20 03:37, 33F

10/20 06:00, 8年前 , 34F
Gibbs把T2記成T3了吧
10/20 06:00, 34F

10/20 13:02, 8年前 , 35F
推推推推
10/20 13:02, 35F

10/20 14:51, 8年前 , 36F
[問卦]#4李世石下出絕妙一手時 ALPHAGO沒看出來?
10/20 14:51, 36F

10/20 14:51, 8年前 , 37F
為何第四盤 在李世石下出絕妙一手時
10/20 14:51, 37F

10/20 14:51, 8年前 , 38F
ALPHAGO第一時間沒看出來 或沒特別的反應
10/20 14:51, 38F

10/20 14:51, 8年前 , 39F
而現場轉撥的柯潔 卻第一時間就看出這手的不凡
10/20 14:51, 39F

10/20 14:51, 8年前 , 40F
古力將李世石78手稱為「神之一手」,
10/20 14:51, 40F

10/20 14:52, 8年前 , 41F
AlphaGo大約在87手才發現它79手算錯了,其後Alph
10/20 14:52, 41F

10/20 14:52, 8年前 , 42F
aGo在97手時更出現入門級別的錯誤 (WIKI)
10/20 14:52, 42F

10/20 14:52, 8年前 , 43F
從這點 是否可以說: AI的邏輯 跟人類的邏輯有不同
10/20 14:52, 43F

10/20 14:53, 8年前 , 44F
怎麼不同?
10/20 14:53, 44F

10/20 14:53, 8年前 , 45F
邏輯上該如何定義:絕妙的一手?
10/20 14:53, 45F

10/20 14:53, 8年前 , 46F
或者說:ALPHAGO其實某程度上來說比李世石與柯潔弱
10/20 14:53, 46F

10/20 14:53, 8年前 , 47F
只是ALPHAGO的下棋法跟一般人類不同,造成人類難以
10/20 14:53, 47F

10/20 14:53, 8年前 , 48F
適應而落敗?
10/20 14:53, 48F

10/20 14:54, 8年前 , 49F
也就說:ALPHAGO強在穩定性與適應力、與人類目前尚
10/20 14:54, 49F

10/20 14:54, 8年前 , 50F
未適應的特殊棋風?
10/20 14:54, 50F

10/20 16:57, 8年前 , 51F
只是瞎猜 不過我認為97手那個入門錯誤肇因於蒙地卡
10/20 16:57, 51F

10/20 16:58, 8年前 , 52F
羅搜尋 我之前刻minmax的時候在末盤有類似的狀況
10/20 16:58, 52F

10/20 16:58, 8年前 , 53F
在必輸的情況下就隨便選了
10/20 16:58, 53F

10/20 22:01, 8年前 , 54F
36樓指的錯誤是演算法不夠周延,更後頭的錯誤是寄望
10/20 22:01, 54F

10/20 22:01, 8年前 , 55F
人類能夠下錯一手的大翻盤,但是人類棋手不太可能發
10/20 22:01, 55F

10/20 22:01, 8年前 , 56F
生這種低級錯誤。你說的思維差異出自於:人類想用人
10/20 22:01, 56F

10/20 22:02, 8年前 , 57F
類的方式(比如更加少量的計算)解讀運算結果,目前都
10/20 22:02, 57F

10/20 22:02, 8年前 , 58F
還是需要藉由 domain knowledge, 一層一層分拆
10/20 22:02, 58F

10/20 22:28, 8年前 , 59F
以棋力而言,alphago遠在人類之上,你的問題偏向對
10/20 22:28, 59F

10/20 22:28, 8年前 , 60F
運算結果的解讀性,這一直是類神經網路的公開大問題
10/20 22:28, 60F

10/21 18:01, 8年前 , 61F
1.感謝回覆
10/21 18:01, 61F

10/21 18:02, 8年前 , 62F
2.所以是'演算法不夠周延'--那可不可以談談:絕妙1手
10/21 18:02, 62F

10/21 18:02, 8年前 , 63F
須要用到甚麼特別的演算法
10/21 18:02, 63F

10/21 18:04, 8年前 , 64F
3.人類可不可能漸漸適應AI的棋風?
10/21 18:04, 64F

10/21 23:49, 8年前 , 65F
回2,李世石跟幾個月前的master版本下,根本沒有機
10/21 23:49, 65F

10/21 23:49, 8年前 , 66F
會下出絕妙一手就被一路被壓著打,差距太大了;
10/21 23:49, 66F

10/21 23:55, 8年前 , 67F
回3,你似乎有些誤解,人類已經不可能追上AI的棋力
10/21 23:55, 67F

10/21 23:55, 8年前 , 68F
了,以後只會和頂尖AI的差距越來越大,這和棋風無關
10/21 23:55, 68F

10/21 23:55, 8年前 , 69F
,和計算能力有關。只要一個問題被機器學習突破,人
10/21 23:55, 69F

10/21 23:55, 8年前 , 70F
類學習的速度趕不上機器學習改良的速度
10/21 23:55, 70F

10/22 12:19, 8年前 , 71F
我不會下圍棋 不過我相信一步好的棋代表的是能夠
10/22 12:19, 71F

10/22 13:05, 8年前 , 72F
為後續帶來更多空間 和提升比較多勝率的步數
10/22 13:05, 72F

10/22 13:06, 8年前 , 73F
對AI來說 每一步都是最大化勝率必須的過程吧
10/22 13:06, 73F
文章代碼(AID): #1Pw6MwRH (CFantasy)
討論串 (同標題文章)
文章代碼(AID): #1Pw6MwRH (CFantasy)