作者查詢 / Wush978
作者 Wush978 在 PTT [ GO ] 看板的留言(推文), 共129則
限定看板:GO
看板排序:
全部Gossiping4484HatePolitics2855R_Language1255Statistics355NTUMath91294nCoV2019264Soft_Job260NTHU_STAT97238GO129LoL125Military124NTHU_STAT96118C_Chat110NTU67Philo-0364BabyMother62DataScience61CrossStrait59C_and_CPP55PHP42BoardGame39Hearthstone31NTHU_STAT9831Programming23PUBG22Tech_Job22BattleRoyale21Python18SLG15MOD14NBA13sex13Ikariam12NTUMath9210HSNU_9789joke9NCCU07_Ghis8CVS7L_TalkandCha7NTUcourse7Sub_CS7Wen-Shan7feminine_sex6PathofExile6Baseball5Hate5Steam5HSNU_9854LawBasketbal4Linux4marriage4Prob_Solve4Salary4TKU_TSPCB934W-Philosophy4Warfare4eSports3FATE_GO3FBG3Federer3PhD3PLT3Poker3StupidClown3SWhite3Tainan3Tennis3Windows3EngTalk2GossipPicket2LGS2Magic2MdnCNhistory2MenTalk2NBME_Lab2NTUHistory882PublicIssue2PublicServan2specialman2Sub_GOnline2WomenTalk2AfterPhD1B88A011XX1Boy-Girl1Broad_Band1Chan_Mou1chess1ck54th3051Cloud1CodeJob1consumer1CPU_FS7411CS92Lien1Daan1Database1dlsh-7th-3031Ecophilia1EZsoft1Fantasy1FCSH_133101FCU_EE00B1FJU1FJU-ACCR941FJU-Stat95A1FJU-STAT95B1FLAT_CLUB1Google1Haruhi1home-sale1HomeTeach1Hornets1Hsinchu1HsinYi1HSNU_11431HSNU_9861Jeremy_Lin1Ju-881KOTDFansClub1KS95-3181KS96-3141KS97-3131LAW1Management1Math1media-chaos1movie1NCCU00_Histo1NCCU_C-Baske1NCHU-Stat971NCTU-STAT98G1NCU91Finance1NSYSU1NSYSU_EE95-11NTHU-EE-CAPT1NTUCH-901NTUE-CS1021NTUE-CS1041NTUE-CS981NTUE-DC991NTUE-EPC-1001NTUEE_BL5271NTUEOE-IOL1NTUmed911NUK_AC981Orzhong97cl1Policy1PTHS95-3101RealPlaying1RS6171scu_transfer1SM04th011SM05th3xx1SorryPub1studyabroad1Taipei1toberich1TypeMoon1TYSH50-3031UTAH-JAZZ1Volunteer1YOLO1YP91-3111<< 收起看板(162)
59F推: 呵呵12/02 17:06
130F→: 樓上要不要先去學一下再來問?11/26 22:18
131F→: 否則說的內容像外行,口氣卻很衝,很不協調11/26 22:19
233F→: 同領域的看推文就知道有沒有料了11/27 13:22
234F→: 樓上太佛了11/27 13:23
251F→: 那你前面講的supervised 用你自己論點打不就更可笑嗎?XD11/27 15:00
258F→: alpha go 的重點是過去人類的棋譜還是他自己下的?11/27 15:05
261F→: 所以說你外行啊,這行哪有這麼簡單「有用這個就會強」11/27 15:06
262F→: 「因為aja過去的AI只拿一次冠軍所以reinforcement learni11/27 15:08
263F→: ng 不重要」 能下出這種推理,我是覺得也太...11/27 15:08
279F→: Alpha GO棋力會強是因為過去人類的棋譜還是他自己對自己11/27 16:15
280F→: 的棋譜?11/27 16:15
295F→: 論文裡面的描述是學習有三階段, SL of policy network,11/27 16:28
296F→: RL of policy network, RL of value network11/27 16:29
297F→: 我是不太喜歡爭論SL重要還是RL重要,因為這種行為本身就11/27 16:29
298F→: 外行。但是說RL不重要,我是笑了11/27 16:29
313F→: RL不是improved SL,這兩個東西不一樣11/27 18:20
322F→: @blacktom,我是在相關領域工作多年了,只是看到有人發11/27 19:28
323F→: 表一些錯誤概念,上來聊聊罷了11/27 19:28
324F→: 要說服當事人我看是很難,但求錯誤的資訊別誤導人就好11/27 19:29
325F→: RL對於alpha go 是相當重要的,根據nature 上的Mastering11/27 19:37
326F→: the game of Go with deep neural networks and tree sea11/27 19:37
327F→: rch 中可以得知,Alpha go 的機器學習分成三階段:SL of11/27 19:37
328F→: policy network, RL of policy network and RL of value11/27 19:38
329F→: network. 其中SL of policy network的部分,主要都是採用11/27 19:38
330F→: 相關工作的方法,並沒有看到太多新的東西, Paper中主要11/27 19:39
331F→: cite了5篇之前關於圍棋AI的工作。RL of policy network的11/27 19:40
332F→: 部分讓SL的結果從預測下一手的問題轉成贏棋>11/27 19:42
333F→: 事實上,這篇paper自稱最大的改善是在policy 和 value11/27 19:43
334F→: function 上,所以他們主要的貢獻在於導入Deep Learning11/27 19:44
335F→: 相關方法來解決圍棋AI的問題。11/27 19:44
336F→: 看下來,說RL對Alpha Go不重要的理由到底是什麼?11/27 19:44
337F→: 明明內容中都在講RL比較多了,SL都是之前的工作11/27 19:45
338F→: 不過Alpha GO說不定最主要的貢獻是發展在GPU上根據policy11/27 19:49
339F→: and value network做搜尋的算法,因為他們propose的做法11/27 19:49
340F→: 計算量太大了,所以需要借助GPU等硬體工具做大大的加速11/27 19:49
354F推: 不同啊,因為兩個方法看待資料的角度是不同。11/27 20:02
355F推: 以這為例,RL的資料是自己產生資料,SL是觀察的資料一11/27 20:06
356F→: 個是觀察的資料,一個是自我產生的資料11/27 20:06
357F→: SL的S在強調的是資料有提供答案,而RL則是要具備能產生11/27 20:10
358F→: 資料的環境11/27 20:10
360F→: 以上是ML的一般知識,你想反駁請找定義11/27 20:11
361F→: 不用拿一個應用的paper中的一句話來戰11/27 20:12
362F→: 你那句話只代表這個問題剛好SL和RL都能解11/27 20:13
364F推: 你不信就算了,其他網友別被誤導就好11/27 20:18
407F推: @semihumanity 我只是指出,要拿該句話論證RL=SL的問題點11/28 03:30
408F→: 感謝@aoeu大大仔細解析那句話的意思以及SL/RL在Paper中的11/28 03:34
409F→: 角色。11/28 03:34
416F→: 我是覺得不離譜。這不代表重現paper簡單,但是當別人把11/28 03:41
417F→: 做法的核心都放出來後,要達到接近的高度,已經比無中生11/28 03:42
418F→: 有還要容易的多了。畢竟已經有前人走在前面,並且達到高11/28 03:43
419F→: 度。像我自己在做研究時,多的是方法難做,也不清楚做出11/28 03:43
420F→: 來是不是真的能夠比現有的好... 痛苦阿11/28 03:43
11F推:http://www.cosumi.net/en/mobile/06/02 16:16
5F推:推cabon07/14 16:51
7F推:接著下來就是停七大賽吧12/21 00:48
10F→:看完四個認知後, 我就覺得這系列是廢文08/06 11:44
11F→:不放煙霧彈 --> 表示你推理過程中只要有誤, 別人指証, 你08/06 11:45
12F→:就可以用這條來脫罪08/06 11:45
13F→:大師都是無師自通的: 這更扯, 你都講到用統計了, 你要不要08/06 11:46
14F→:統計一下無師自通和透過學習而成為大師的比率相差多少?08/06 11:46
15F→:就拿圍棋高手來統計就好了, 期待你的數據08/06 11:46
16F→:真理往往與一般認知的相反: 大錯特錯, 應該是"吸引人注意"08/06 11:47
17F→:才與一般認知的相反. 那只是一種時代進步的必然過程, 你卻08/06 11:47
18F→:拿來當通則...08/06 11:47
19F→:拿MC方法為例子, 之前不能用是因為電腦的運算速度不夠08/06 11:48
20F→:現代電腦相關的很多理論基礎都是五十年前沒有電腦就有的08/06 11:48
2F推:沒記錯的話是2:104/07 18:58
4F推:吃了兩塊...09/13 17:40
3F推:大李好像贏了?09/10 16:02
1F→:羽根輸業餘... 常昊最後好像走出昏著... 韓國今天笑呵呵09/09 16:11