[新聞] DeepMind揭露新一代AI系統MuZero：不知遊戲規則也能有效規畫行動

看板GO作者Kowloon (九龍艦長)時間3年前 (2021/04/04 11:38)推噓6(6推 0噓 2→)

留言8則, 7人參與討論串1/1

https://www.ithome.com.tw/news/141845 DeepMind揭露新一代AI系統MuZero：不知遊戲規則也能有效規畫行動新一代AI系統MuZero能在完全不知規則的情況下，熟悉圍棋、西洋棋、將棋，以及57款 Atari遊戲，且效能大幅超越了現有最佳的DQN、R2D2與Agent57系統，可望用來解決現實生活中，規則太複雜或完全不知規則的各式難題。文/陳曉莉 | 2020-12-24發表 Alphabet旗下的人工智慧子公司DeepMind，繼發表了圍棋AI系統AlphaGo，以及同時精通圍棋、西洋棋與將棋的AlphaZero之後，於本周再度揭露了新一代AI系統MuZero，它能夠在完全不知規則的情況下，熟悉圍棋、西洋棋、將棋，以及57款Atari遊戲，且效能大幅超越了現有最佳的DQN、R2D2與Agent57系統，可望用來解決現實生活中，規則太複雜或完全不知規則的各式難題。比較DeepMind的幾代產品，2016年的AlphaGo是透過已知的規則、圍棋領域的知識，再加上人類資料訓練而成，讓它擊敗了全球的圍棋好手；2017年的AlphaGo Zero，則是僅利用已知規則，自我學習而達到與AlphaGo同樣的境界；2018年的AlphaZero也是僅基於已知規則，但把挑戰範圍從圍棋擴大到西洋棋與將棋，便能同時精通這3項棋戲；而最新的 MuZero則未被餵入任何的已知規則，在未知的動態環境下就能自動學習規則並作出最佳判斷，且MuZero系統把挑戰範圍從上述的圍棋/西洋棋/將棋，擴大到Atari出品的57款遊戲，並取得優秀的成績。 DeepMind團隊說明，規畫是人類智慧的一項重要能力，讓人類能夠解決問題並替未來作出決策，人類通常很快就可以學到計畫的能力，同時也能延伸到新的場景，而這也是該團隊期許AI系統能夠達到的。研究人員最初試著透過兩種作法來解決此一問題，包括超前搜尋（lookahead search）與基於模型的規畫能力，但前者必須仰賴諸如規則或精確模擬器等環境動態的知識，讓它難以適用於解決複雜且通常缺乏簡單規則的現實世界問題；後者雖然可藉由學習環境動態的精確模型來進行計畫，但針對環境的每一方面來建模，則無法滿足視覺豐富的領域，例如 Atari，迄今針對Atari的最佳解決方案為非模型的AI系統，包括DQN、R2D2與Agent57，它們並非使用學習模型，而是推測下一步的最佳作法。於是MuZero摒棄了上述兩種方式，採用了截然不同的作法，它只針對系統決策程序的重要因素來建模。研究人員形容，人類的規畫能力呈現在當看到烏雲時，即推測可能會下雨便帶了把傘，MuZero的邏輯則在於，了解傘能夠讓人們保持乾燥，比針對空氣中的雨滴進行建模更有用。因此，MuZero的模型著重在能夠協助規畫的環境變動因素，包括現在位置的價值、最佳行動的政策，以及上一個行動的成效，藉由深度神經網路進行學習，以理解當採取特定行動時所產生的結果，並據此展開規畫。 DeepMind團隊測試了MuZero在圍棋、西洋棋、將棋與Atari遊戲上的效能，發現它替強化學習演算法設立了全新的水平，不僅於棋戲項目達到與AlphaZero同樣的效能水準，在 Atari遊戲上更凌駕了所有現有的最佳系統。此外，該團隊也發現，要是賦予MuZero更多的思考（演算）時間，例如原本移動圍棋每個棋子的時間為1/10秒，在將它拉長至50秒之後，MuZero在圍棋上的技能將增加 1000 Elo ，兩者之間的差距就如同一個厲害的業餘玩家，以及一個世界最強的專業棋手。同樣的，在Atari其中一款遊戲《小精靈小姐》（Ms Pac-Man）上進行測試時，MuZero在每個行動上可選擇5~50個數量的規畫模擬，結果顯示所選擇的規畫數量愈多，MuZero就能學習得更快，也能取得更好的效能；有趣的是，若將MuZero的每個行動限制在只能選擇6 或7個規畫模擬，它同樣能夠達到優秀的效能，透露出MuZero可在情況與行動之間進行歸納，而不一定要搜尋所有的可能性。研究人員認為，當MuZero具備學習環境模型的能力，並用它來進行規畫時，呈現的是強化學習與通用演算法上的重大進步，AlphaZero已被用來解決化學或量子物理等問題，而 MuZero將可用來解決機器人、工業系統或其它未知規則的混亂現實環境中，所存在的新挑戰。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.129.164.26 (日本) ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1617507530.A.B3A.html

推

intointo

04/04 12:04, 3年前 , 1^F

04/04 12:04, 1^F

推

RicFlair

04/04 15:09, 3年前 , 2^F

04/04 15:09, 2^F

推

staristic

04/04 15:11, 3年前 , 3^F

04/04 15:11, 3^F