[問題] Tutorial on VAE 的問題

看板DataScience作者 (tipsofwarren)時間4年前 (2019/06/06 21:19), 4年前編輯推噓3(3024)
留言27則, 4人參與, 4年前最新討論串1/1
各位前輩, 小的最近在讀 "Tutorial on Variational Autoencoders" https://arxiv.org/pdf/1606.05908.pdf 在 Page 9 末: Hence, as is standard in stochastic gradient descent, we take one sample of z and treat P(X|z) for that z as an approximation of E [log P(X|z)]. (E 是 以 Q(Z) 為分配的期望值) 我的問題是 treat P(X|z) for that z 是不是應該為 treat logP(X|z) for that z 才對? 或者我的思路哪兒錯了? 感謝指導. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.161.249 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1559827172.A.979.html

06/07 08:54, 4年前 , 1F
我的理解是作者說明that z as a proximation是在描述我
06/07 08:54, 1F

06/07 08:54, 4年前 , 2F
們p(X|z)採樣出來的z,這個採樣點z可以視為是E[p(X|z]
06/07 08:54, 2F

06/07 08:54, 4年前 , 3F
的近似...這比較像是文章的理解啦。
06/07 08:54, 3F
非常感謝 sxy 大, 端午節快樂!

06/07 21:19, 4年前 , 4F
是logP沒錯 就是Monte Carlo
06/07 21:19, 4F

06/07 21:24, 4年前 , 5F
剛好今天VAE作者傳了一篇Introduction to VAE上arXiv 也
06/07 21:24, 5F

06/07 21:24, 4年前 , 6F
可以來回對照看看 https://arxiv.org/abs/1906.02691
06/07 21:24, 6F
拍謝我根本不是數統背景, Monte Carlo 沒學過... 所以您的意思是 原文應該改為 treat log P(X|z) for that z? 很感謝您提醒 Kingma 有推出 introduction, 我光看 VAE 的原理 來來回回 (包含私信請教 sxy) 花了快一個月, 台灣的 youtube 相關原理教學 幾乎沒有(李教授很簡單的帶過), 即使 Stanford 的 ML Generative Model 那片 (Serena Yeung 講得多一些, 但是也是點到而已... 有學生問她為何 latent variable Z 要用 Normal distribution, 她卡住... 一開始我也覺得, 當然是高斯呀, 後來 突然看到 Bishop 有提到, Normal Distribution 的 Entropy 最大, 突然有被點到的感覺) 很感恩兩位大大... ※ 編輯: tipsofwarren (118.160.84.85 臺灣), 06/07/2019 22:25:03

06/07 23:31, 4年前 , 7F
對 其實就是常常看paper會看到有一步推導 會把期望值變成
06/07 23:31, 7F

06/07 23:32, 4年前 , 8F
= 1/N Σ(...) 這樣的作法,只是這邊簡單取N=1
06/07 23:32, 8F

06/07 23:41, 4年前 , 9F
我還沒仔細看那篇introduction,但看起來第三章有提到你
06/07 23:41, 9F

06/07 23:42, 4年前 , 10F
上面講的:為什麼要用Gaussian
06/07 23:42, 10F

06/07 23:42, 4年前 , 11F
還有要怎麼放寬讓它也可以是非Gaussian
06/07 23:42, 11F

06/08 12:02, 4年前 , 12F
Monte Carlo EM取期望值E[log(p(y,x|theta))] 近似於 1/
06/08 12:02, 12F

06/08 12:02, 4年前 , 13F
N summation(log(P(x,y|theta))),當考慮只採樣一個z的
06/08 12:02, 13F

06/08 12:02, 4年前 , 14F
採樣點的時候就是log(P(X|z^),z^為採樣點z。我覺得個人
06/08 12:02, 14F

06/08 12:03, 4年前 , 15F
理解是原作者表達也沒錯,只是換一個方式說,然後想說
06/08 12:03, 15F

06/08 12:03, 4年前 , 16F
明取樣z就是期望值的近似,等同於後話就是log(P(X|z^)這
06/08 12:03, 16F

06/08 12:03, 4年前 , 17F
件事情。
06/08 12:03, 17F

06/08 18:17, 4年前 , 18F
關於VAE我也有問題,就是他的output是機率值,還是就
06/08 18:17, 18F

06/08 18:17, 4年前 , 19F
像AE是預測自己的值
06/08 18:17, 19F

06/08 20:15, 4年前 , 20F
如果理解沒有錯, 用RMSE Loss, output是gaussian mu
06/08 20:15, 20F

06/08 20:16, 4年前 , 21F
而且std=1, 所以你可以代回gaussian得到你要的機率
06/08 20:16, 21F

06/08 20:51, 4年前 , 22F
posterior選擇gaussian approximation應該是個conven
06/08 20:51, 22F

06/08 20:51, 4年前 , 23F
ient choice, 選擇gaussian除了可以進一步用ICLR14 K
06/08 20:51, 23F

06/08 20:51, 4年前 , 24F
ingma提出的reparameterization trick進一步降低stoc
06/08 20:51, 24F

06/08 20:51, 4年前 , 25F
hastic gradient of ELBO的variation以外, ELBO拆解
06/08 20:51, 25F

06/08 20:52, 4年前 , 26F
出來的KL divergence那一項也可以直接得到論文中推
06/08 20:52, 26F

06/08 20:52, 4年前 , 27F
導的解析解。
06/08 20:52, 27F
文章代碼(AID): #1S-HBabv (DataScience)