[問題] 若想要自己做出小朋友下樓梯的AI可行嗎消失

看板Python作者時間6年前 (2018/03/23 10:06), 編輯推噓11(11021)
留言32則, 12人參與, 最新討論串1/1
大家好 最近小弟突發奇想 很想做出一個可以自動玩小朋友下樓梯的程式(類似alphago) 目前已經看過一些莫凡的強化學習教學影片 也會使用autogui控制鍵盤滑鼠 也看了很多相關資料 但還是有點迷茫不知從何做起 請問各位前輩有沒有什麼推薦的資源呢 或是這個目標其實很困難 有較基本的練習可以推薦我 感激不盡 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.161.35.177 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1521770779.A.749.html

03/23 11:03, , 1F
先能夠detect遊戲中的物件(?
03/23 11:03, 1F

03/23 11:45, , 2F
openAI gym 先玩一下 那邊的都不用處理遊戲內容
03/23 11:45, 2F

03/23 12:58, , 3F
自己試過 Reinforcement Learning 覺得痛苦XD
03/23 12:58, 3F

03/23 12:58, , 4F
要調的參數+硬體需求+時間 太多了
03/23 12:58, 4F

03/23 12:59, , 5F
推薦用基因演算法來煙化出好的 policy network
03/23 12:59, 5F

03/23 12:59, , 6F
*演化
03/23 12:59, 6F

03/23 13:00, , 7F
CNN 搭配 基因演算法就做得到 youtube 很多影片
03/23 13:00, 7F

03/23 13:01, , 8F

03/23 13:22, , 9F
不是潑冷水 RL實務上成功的例子很少
03/23 13:22, 9F

03/23 13:24, , 10F
reward很難設計 最後幾乎都要靠暴力硬解
03/23 13:24, 10F

03/23 13:26, , 11F
推樓上
03/23 13:26, 11F

03/23 16:24, , 12F
有看過用AI貪食蛇 下樓梯應該也做得到吧
03/23 16:24, 12F

03/23 16:37, , 13F
覺得可以 這個獎勵很單純
03/23 16:37, 13F

03/23 16:39, , 14F
只是你要把什麼時候是結束之類的定義弄好給程式
03/23 16:39, 14F

03/23 16:40, , 15F
所以像openai他們把髒活都幫你做好是輕鬆很多
03/23 16:40, 15F

03/23 17:40, , 16F
可能小弟太菜,看完之後還是沒什麼想法,會再深入研究一下
03/23 17:40, 16F

03/23 17:40, , 17F
各位給的資源,感謝
03/23 17:40, 17F

03/23 18:19, , 18F
DQN 請參考deeplearning-flappy-bird的github
03/23 18:19, 18F

03/23 18:27, , 19F
偷宣傳一下,現在有AI專版唷 DataScience版
03/23 18:27, 19F

03/23 19:35, , 20F
既然指定要小朋友下樓梯就沒有 openai 的資源了
03/23 19:35, 20F

03/23 19:35, , 21F
不建議從頭刻 RL,變因太多,訓練失敗的話
03/23 19:35, 21F

03/23 19:35, , 22F
難 debug 難 tune
03/23 19:35, 22F

03/24 01:08, , 23F
貪食蛇的AI應該很簡單吧...不需要用train的
03/24 01:08, 23F

03/24 04:39, , 24F
樓上是指 rule based 的嗎?
03/24 04:39, 24F

03/24 04:40, , 25F
用 Train 的不僅是為了讓機器玩
03/24 04:40, 25F

03/24 04:40, , 26F
而是讓機器從錯誤學習,這意義非凡
03/24 04:40, 26F

03/24 15:52, , 27F
只是我有個疑問是 這樣會收斂嗎
03/24 15:52, 27F

03/24 17:45, , 28F
exploration沒辦法讓結果更好 就能說(希望)收斂惹吧
03/24 17:45, 28F

03/25 15:06, , 29F
各位前輩,如果是改做皮卡丘打排球呢?先單純左右移動防守
03/25 15:06, 29F

03/25 15:06, , 30F
這樣,若要學習各種球路會比較適合什麼演算法呢?
03/25 15:06, 30F

03/25 15:06, , 31F
想說這樣會不會簡單點
03/25 15:06, 31F

03/26 03:14, , 32F
實習有做過用RL調整交易策略的專案 reward真的是關鍵
03/26 03:14, 32F
文章代碼(AID): #1Qj64RT9 (Python)