[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?
雖然下了很農場的標題
但這一篇認真的研究論文
大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎
在一年前可能沒有錯 但經過最近的突飛猛進
故事已經進入了新的轉捩點
讓我們歡迎今天的兩個主角
1. 由好心人士在四個A100跟一個小的 Danbooru dataset
在 stable diffusion 經過「不到一天」fine tune完成的 waifu diffusion
https://huggingface.co/hakurei/waifu-diffusion
2. 怕你不會下 prompt 叫你給圖片直接幫你學習文字 embedding 的 textual inversion
https://github.com/rinongal/textual_inversion
先聊聊限制
首先很明顯 這麼模型可能根本沒看過ACG的色圖
也就是只能用真人了解色的概念 在生成偏向全身圖片的時候
比例容易受到影響造成換臉效果
再來就是用 textual inversion 只能給予極少張圖學習固定概念
因為沒有對於學習概念專門的處理
能學到的東西不一定是你想要的
再來是結果 我們當然不能在這裡貼色圖
但大家不妨體會一下這套模型能做到什麼什麼程度
-------------------- 泳裝鯊鯊 --------------------
首先是用7張泳裝古拉做輸入得到的部份結果
https://i.imgur.com/IW9jLzH.jpg
講評:
這裡使用鯊鯊並非筆者興趣
而是因為此角色的某種屬性可能在資料集裡面比較缺乏
為了測試模型在 out of distribution 的成效如何特定選用
可以看到雖然大致成果還算不錯 但模型無法抓到髮型特徵
同時由於資料集裡面東方角色過多
很大一部份可能直接利用學到的琪露諾造型進行代替
另外真人的影響也可以從部份圖的比例觀察出
注意到這裡選用了固定角色跟服裝的作法
因此生成的圖平均相似程度高品質高
但已經綁死難以經由其他文字再做調整
至於色圖的部份嗎 資源都放在上面了 成效如何可以自己驗證
-------------------- 百鬼 --------------------
利用約12張百鬼作為輸入
得到的圖片相較的雜
https://i.imgur.com/Pmz4PmF.jpg
可以看出這裡最大的難點在角的生成
跟鯊鯊一樣 這個東西在資料集裡面大概非常稀有
因此生成的常常以獸耳或鑑娘儀裝置換
還以為是色違天津風
另外跟上面一樣有奶子忽大忽小的問題
幾乎下泳裝相關關鍵字奶子就會變大
完全顯示了資料集的 bias
關於這種大男人主義下的產物 我們應當強烈譴責
特別好的幾張在這裡
https://i.imgur.com/FQZ6nMe.jpg
-------------------- 茸茸鼠 --------------------
飲水思源 測試完美國日本的vtuber後當然要回來測測台V代表的茸茸鼠
這裡是以九張差異頗大的圖片為參考 (畢竟茸茸鼠圖片也相較少
得到了以下成果
https://i.imgur.com/zvJeiSv.jpg
不知道是不是因為圖沒去背有些蛋糕之類的
導致生成的圖片常常衣服跟蛋糕甚至美露露合為一塊
https://i.imgur.com/NMvOTaW.jpg
無法正確掌握胸部大小的問題依舊存在
https://i.imgur.com/qSKFGI5.jpg
嘗試跟真實世界混雜會很可怕
https://i.imgur.com/5HEzPoQ.png
沒臉沒手沒腳生成內褲容易多了
https://i.imgur.com/LaSTMJP.png
-------------------- 私心同場加映 光輝魔女金妮 --------------------
因為金妮實在太可愛了 所以抓了六張動畫截圖來測試如下
https://i.imgur.com/zFMAM0V.jpg
這邊可以明確感覺到
對圖片要求更改越大 越會失去角色特質
從這樣 https://i.imgur.com/KiC3NhL.jpg
除了已經提過好幾次的胸部大小問題
髮色 頭髮長度也都會改變
我好幾次還以為看到了桑妮亞
這告訴我們金妮跟桑妮亞果然師出同源吧
-------------------- 你可以做什麼 --------------------
要得到上面成果 可以使用hugging face的diffuser
https://github.com/huggingface/diffusers/tree/main/examples/textual_inversion
只要準備好四五張圖片照著說明跑就可以了
圖片大小改成484x484可以在12G vram跑 所以1080ti, 2080ti都ok
不過就像前面所說 如果沒有在正確的資料集訓練過 你永遠達不想要的效果
而想要 fine tune 模型的話據說至少要 30G vram
大概都是要到 A100 層級 或是等 4090ti
回到一開始的問題 AI能夠生成色圖嗎
只能說 真人的都生成這麼久了 潘朵拉的盒子早就被打開了
一直都不是技術層面的問題
而是沒人敢明目張膽去做而已
如果你現在訓練了一個色圖產生器 可能會一夜致富
但也可能會被抓走
-------------------- 上面的圖看起來還是普普啊 --------------------
必須說目前的圖都是靠少數資訊生成整張的
中玩不中用
真的要做就是做類似修圖軟體
實際你光把四肢分開用乾淨資料集訓練 可能就可以解除目前手腳壞掉的問題
更甚者 敝人覺得AI紙娃娃換裝系統才是大家該努力的目標
又舉例來說
https://www.reddit.com/r/AnimeResearch/comments/w17ttl/collaborative_neural_re
ndering_using_anime/
這個用四張圖配真人舞蹈直接生成動漫角色3d舞蹈這種東西
可以利用姿勢讓產生的圖片有參考依據 絕對會比現在效果好上不少
-------------------- 延伸閱讀 --------------------
1. AI不存在 只有統計模型
https://www.pttweb.cc/bbs/C_Chat/M.1661681711.A.DE3
2. 中國人也做了一套 但當你只能用別人的API 就永遠都是被管的那一個
https://www.pttweb.cc/bbs/C_Chat/M.1661896344.A.3BA
--
北歐組一生推
https://i.imgur.com/ydMoryp.jpg
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.19.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1662444496.A.2E6.html
※ 編輯: cybermeow (114.34.19.251 臺灣), 09/06/2022 14:08:49
推
09/06 14:09,
1年前
, 1F
09/06 14:09, 1F
→
09/06 14:10,
1年前
, 2F
09/06 14:10, 2F
推
09/06 14:10,
1年前
, 3F
09/06 14:10, 3F
推
09/06 14:10,
1年前
, 4F
09/06 14:10, 4F
→
09/06 14:10,
1年前
, 5F
09/06 14:10, 5F
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 14:11:16
推
09/06 14:11,
1年前
, 6F
09/06 14:11, 6F
推
09/06 14:11,
1年前
, 7F
09/06 14:11, 7F
推
09/06 14:12,
1年前
, 8F
09/06 14:12, 8F
推
09/06 14:12,
1年前
, 9F
09/06 14:12, 9F
推
09/06 14:13,
1年前
, 10F
09/06 14:13, 10F
我只是為了嘗試理解這模型在不同的情況下表現如何而已
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 14:14:03
推
09/06 14:14,
1年前
, 11F
09/06 14:14, 11F
ai的世界跟你們想的不一樣
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 14:15:44
推
09/06 14:16,
1年前
, 12F
09/06 14:16, 12F
推
09/06 14:18,
1年前
, 13F
09/06 14:18, 13F
推
09/06 14:19,
1年前
, 14F
09/06 14:19, 14F
→
09/06 14:22,
1年前
, 15F
09/06 14:22, 15F
推
09/06 14:22,
1年前
, 16F
09/06 14:22, 16F
推
09/06 14:24,
1年前
, 17F
09/06 14:24, 17F
推
09/06 14:32,
1年前
, 18F
09/06 14:32, 18F
→
09/06 14:32,
1年前
, 19F
09/06 14:32, 19F
推
09/06 14:37,
1年前
, 20F
09/06 14:37, 20F
→
09/06 14:40,
1年前
, 21F
09/06 14:40, 21F
→
09/06 14:41,
1年前
, 22F
09/06 14:41, 22F
推
09/06 14:44,
1年前
, 23F
09/06 14:44, 23F
推
09/06 14:49,
1年前
, 24F
09/06 14:49, 24F
推
09/06 14:56,
1年前
, 25F
09/06 14:56, 25F
真實系的san值才低 我看完整個人都不好了
詭異感就我說的 這些都是玩具 沒有真的認真調整過
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 15:00:09
推
09/06 15:05,
1年前
, 26F
09/06 15:05, 26F
推
09/06 15:10,
1年前
, 27F
09/06 15:10, 27F
推
09/06 15:11,
1年前
, 28F
09/06 15:11, 28F
推
09/06 15:23,
1年前
, 29F
09/06 15:23, 29F
推
09/06 15:29,
1年前
, 30F
09/06 15:29, 30F
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 15:30:54
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 15:36:07
→
09/06 15:42,
1年前
, 31F
09/06 15:42, 31F
推
09/06 16:06,
1年前
, 32F
09/06 16:06, 32F
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 16:10:56
推
09/06 16:11,
1年前
, 33F
09/06 16:11, 33F
那個要付錢效果看起來好的midjourney是別人精心訓練過的 而且不太能真的生成一般動畫
類型圖片
至於像waifulab這種可以算是上一代圖像生成模型一路調整的結果
他們dataset也都是特別清理簡化過
這一代模型目前還沒有人真的在動畫上面做過
這些都是像我說的 由個人(好像還是個學生)在不到一天獨立完成的
這才是驚人的點
可以想見如果有更多人投入 不久的將來可以用這套方法去生成真的consistent的ACG圖片
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 16:19:32
※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 16:22:39
推
09/06 16:49,
1年前
, 34F
09/06 16:49, 34F
推
09/06 16:53,
1年前
, 35F
09/06 16:53, 35F
→
09/06 17:18,
1年前
, 36F
09/06 17:18, 36F
推
09/06 18:58,
1年前
, 37F
09/06 18:58, 37F
推
09/06 19:53,
1年前
, 38F
09/06 19:53, 38F
→
09/06 19:54,
1年前
, 39F
09/06 19:54, 39F
推
09/06 20:15,
1年前
, 40F
09/06 20:15, 40F
→
09/06 20:25,
1年前
, 41F
09/06 20:25, 41F
推
09/06 20:26,
1年前
, 42F
09/06 20:26, 42F
推
09/06 21:13,
1年前
, 43F
09/06 21:13, 43F
推
09/07 00:34,
1年前
, 44F
09/07 00:34, 44F
→
09/07 11:09,
1年前
, 45F
09/07 11:09, 45F
→
09/07 11:09,
1年前
, 46F
09/07 11:09, 46F
難說 我看是快了
https://imgur.com/a/JJhe8Um
不過讓有繪畫底子的人直接後修應該是最快的
※ 編輯: cybermeow (73.222.84.130 美國), 09/07/2022 11:46:23
※ 編輯: cybermeow (73.222.84.130 美國), 09/07/2022 11:53:23