[閒聊] DDPM: 從隨機微分方程到ACG圖片生成

看板C_Chat作者cybermeow (北歐組一生推)時間1年前 (2022/08/28 18:15)推噓15(15推 0噓 13→)

留言28則, 15人參與討論串1/1

週末閒著來聊聊最近很紅的AI生成動畫圖片不廢話先上圖 https://imgur.com/G9gKpXP

https://imgur.com/U9HNT5v

https://imgur.com/tVK8Am0

https://imgur.com/Rx1OQAE

https://imgur.com/M70u9O7

https://imgur.com/eQlOjjl

https://imgur.com/VkXvv8b

https://imgur.com/ohMnJ6p

https://imgur.com/g01yYrb

稍微瑟瑟版本 https://imgur.com/366A3aG

https://imgur.com/0KWzZei

雖然動畫專門版的 StableDiffusion 還沒釋出 (https://www.reddit.com/r/StableDiffusion/comments/ww0yfq/coming_soon_stable_d iffusion_anime_version/ 但其實拿目前市面上有的模型開源碼跟API 就算不 fine tune (指在自己的個人訓練集進行微調也能有不少不錯的結果而且因為是開源的不會有額度的問題可以無限生成至於造成這波圖像生成革命的推手正式所謂的 Diffusion / Score-matching model 系列一般往前最早大約推到2015年這篇文章 [1] https://arxiv.org/abs/1503.03585 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 不過船過水無痕之後幾年還是一直由GAN (Generative Adversarial Netwok 生成對抗網路) 統領生成模型這塊直到2019年後兩派人馬分別用不同個觀點把這系列的效果真的做起來後才有我們今天所看到的這些結果所以說 Diffusion model 到底是什麼會什麼效果可以這麼好下面分三個面向來談真的想深入了解的很推薦今年 CVPR 的 tutorial https://cvpr2022-tutorial-diffusion-models.github.io/ 深入淺出的從不同面向介紹這些模型 =================== 以下專業內容可跳過 =================== 1. Diffusion model as denoiser 最直覺最好解釋同時也可能是最正確的觀點是把 Diffusion model 當作一個不斷去噪的過程以下圖片分別取自 DDPM 的 Paper [2] 以及上面提到的 tutorial https://imgur.com/kkj76zH

https://imgur.com/uEPubtG

第一張圖示從右到左 x0 到 xT 不斷地加噪音而訓練是學習如何把不同程度噪音的圖片還原成原本的資料由於還原無法完美所以嘗試還原再加上一定程度的噪音相當於學習如何從一個噪音較多的 xt 到一個噪音較少的 x_{t-1} 而最後生成圖片的時候則是從白噪音不斷去噪得到我們所見到的成果至於為什麼這簡單的解釋正是真的的原因可以參考 Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise [3] 2. Diffusion model as maximum-likelihood model 數學的角度上來講 Diffusion model 跟任何機率模型一樣 (Gaussian mixture, Hidden markov chain or whatever 都是由許多參數來描述一個機率也就是經過上面一部一部去噪所得到的機率分佈不過它由於利用許多如今神經網路的特性所以效果特別好稍微讀過統計的人大概都聽過學習一個模型最常用的就是 maximum-likelihood 白話來說就是如何找到一組參數使得在這個參數下觀察到手邊資料的機率是最大的而所謂訓練去除噪音的過程其實就是在最小化訓練集機率分佈跟模型機率分佈的交叉熵的某個上界以達到 maximum likelihood 的效果詳細推導可以參考 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ 而這也是 DDPM [2] 或者 2015 那篇 [1] 的看法另外同樣機率模型來說 Diffusion model 也可以看作一種 energy model 又或者是 hierarchical VAE 的特例 3. Diffusion model as discretization of a reverse stochastic differential equati on 如果把剛剛一部一部往前加噪音連續化那將成為一個隨機微分方程的軌跡 (trajectory) 將它從我們感興趣的圖片的機率分佈帶到高斯噪音而這個隨機微分方程其實是可逆的往回走得過程需要學每一個時間點的 score function 也就是 gradient of log density 如同下圖所示 (取自 https://yang-song.net/blog/2021/score/ 那邊有詳細解釋 https://imgur.com/fprfULR

而其實學習如何去噪也可以理解成在學習這個 score function 上面的 sampling process 也跟學好 score function 後沿著這個 reverse SDE 走回來有異曲同工之妙另外同樣 score function 系列的比較早期的 Annealed Langevin Dynamics 也是類似的概念 =================== 以上專業內容可跳過 =================== 回來談談我一開始的圖片是怎麼生成的基本上是先用別人稍微再 Danbooru fine tune 過的 DALL·E Min 生成原形 https://github.com/cccntu/anim_e 值得注意 DALL-E [4] 是比較早期的技術本身是用 VQGAN 跟 autoregressive model 而不是 diffusion model 生成速度比較快而且因為別人已經 fine tune 過生成的圖片比較接近動畫之後在用 StableDiffusion 最近釋出的權重 https://stability.ai/blog/stable-diffusion-public-release 利用 Diffuser 的 API 對圖片的品質進行微調 https://github.com/huggingface/diffusers 那麼 diffusion model 厲害的地方在哪裡呢正因為它生成圖片是經由一次一次的去噪所以它對生成的圖片也可以有更精細的控制也就是你可以要求生成的資料符合某種特性例如你可以挖洞要它補 (inpainting 可以要生成的圖像是某個角色/某個畫師的畫風當然也可以各種修圖微調只要你的訓練集某種程度上包含你想要生成的圖片類型那你就可以在生成的途中把圖片導向你想要的模樣不過由於以上這些目前都沒有api必須手寫所以還沒嘗試事實上以數學的語言來說你甚至可以做 posterior sampling 因此這不僅僅侷限於圖片生成甚至可以影響到所有需要 prior 來進行 optimization 的問題嗯嗯這已經逐漸到個人研究主題的範疇了無論如何 Diffusion model 真的是個很讚的東西因為它背後充滿了酷炫的數學同時你也可以無視這些拿它來瑟瑟它顯示了數學推導如何直接在生活產生實質的影響有興趣更深入了解的人下面網站有豐富的資源 https://github.com/heejkoo/Awesome-Diffusion-Models https://scorebasedgenerativemodeling.github.io/ 置底貼圖 https://imgur.com/UJ39mEP

https://imgur.com/2yuFxoE

https://imgur.com/Snnlp5N

https://imgur.com/m3Nlzsq

https://imgur.com/VCP0btu

https://imgur.com/yOpgscG

https://imgur.com/Cg0R6R6

[1] Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., & Ganguli, S. (2015, June). Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning (pp. 2256-2265). PMLR. [2] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33, 6840-6851. [3] Bansal, A., Borgnia, E., Chu, H. M., Li, J. S., Kazemi, H., Huang, F., ... & Goldstein, T. (2022). Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise. arXiv preprint arXiv:2208.09392. [4] Esser, P., Rombach, R., & Ommer, B. (2021). Taming transformers for high-resolution image synthesis. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 12873-12883). -- 北歐組一生推 https://i.imgur.com/ydMoryp.jpg

https://i.imgur.com/njHa0OA.jpg

https://i.imgur.com/KVrWmNb.jpg

https://i.imgur.com/leUc4jP.jpg

https://i.imgur.com/aWFuDE4.jpg

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.222.84.130 (美國) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1661681711.A.DE3.html

推

diabolica

08/28 18:16, 1年前 , 1^F

08/28 18:16, 1^F

推

attacksoil

08/28 18:21, 1年前 , 2^F

08/28 18:21, 2^F

※ 編輯: cybermeow (172.58.35.190 美國), 08/28/2022 18:23:49

推

Vulpix

08/28 18:37, 1年前 , 3^F

08/28 18:37, 3^F

推

Grothendieck

08/28 18:42, 1年前 , 4^F

08/28 18:42, 4^F

推

kirimaru73

08/28 18:58, 1年前 , 5^F

08/28 18:58, 5^F

→

kirimaru73

08/28 18:58, 1年前 , 6^F

08/28 18:58, 6^F

→

kirimaru73

08/28 18:58, 1年前 , 7^F

08/28 18:58, 7^F

也是沒錯

推

k18535318

08/28 19:13, 1年前 , 8^F

08/28 19:13, 8^F

推

hdjj

08/28 19:13, 1年前 , 9^F

08/28 19:13, 9^F

→

hdjj

08/28 19:15, 1年前 , 10^F

08/28 19:15, 10^F

推

agario

08/28 20:12, 1年前 , 11^F

08/28 20:12, 11^F

看你想做哪塊吧幾家大公司 Google meta amazon Microsoft 我猜加減都有 Nvidia 圖片生成一直做很兇像是上面 tutorial 就有兩個 Nvidia 動畫相關日本那邊 preferred network 應該做一段時間了 https://crypko.ai/ 不然其實像是midjourney和StableDiffusion都是自己的團隊有心也可以自己找人慢慢做起來 ※ 編輯: cybermeow (172.58.35.190 美國), 08/28/2022 21:38:04

推

eric00826

08/28 21:49, 1年前 , 12^F

08/28 21:49, 12^F

推

agario

08/28 22:13, 1年前 , 13^F

08/28 22:13, 13^F

→

cybermeow

08/28 23:04, 1年前 , 14^F

08/28 23:04, 14^F

→

cybermeow

08/28 23:04, 1年前 , 15^F

08/28 23:04, 15^F

→

cybermeow

08/28 23:04, 1年前 , 16^F

08/28 23:04, 16^F

→

cybermeow

08/28 23:06, 1年前 , 17^F

08/28 23:06, 17^F

推

xkiller1900

08/29 00:32, 1年前 , 18^F

08/29 00:32, 18^F

→

xkiller1900

08/29 00:32, 1年前 , 19^F

08/29 00:32, 19^F

蘇格拉底說過人因色圖而偉大 (並沒有 ※ 編輯: cybermeow (172.58.35.190 美國), 08/29/2022 06:28:23

推

FAccounting

08/29 08:18, 1年前 , 20^F

08/29 08:18, 20^F

推

inte629l

08/30 09:58, 1年前 , 21^F

08/30 09:58, 21^F

推

yoyololicon

08/30 16:06, 1年前 , 22^F

08/30 16:06, 22^F

→

yoyololicon

08/30 16:06, 1年前 , 23^F

08/30 16:06, 23^F

→

yoyololicon

08/30 16:06, 1年前 , 24^F

08/30 16:06, 24^F

→

yoyololicon

08/30 16:07, 1年前 , 25^F

08/30 16:07, 25^F

→

yoyololicon

08/30 16:08, 1年前 , 26^F

08/30 16:08, 26^F

→

yoyololicon

08/30 16:08, 1年前 , 27^F

08/30 16:08, 27^F

maximum likelihood是第二個你說的沒錯跟VAE那套一樣就是ELBO 我寫最小化上界所以也是最大化下界 score matching 才是對到 sde 解釋交流很歡迎可以密我我現在就在研究怎麼拿diffusion model當prior做posterior sampling 解inverse problem應該可以算是其應用之一

推

bitcch

08/30 17:56, 1年前 , 28^F

08/30 17:56, 28^F

※ 編輯: cybermeow (172.58.43.8 美國), 08/30/2022 21:24:30

‣ 返回看板[ C_Chat ] 閒談

‣ 更多 cybermeow 的文章

文章代碼(AID): #1Z2q0ltZ (C_Chat)