[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?

看板C_Chat作者cybermeow (北歐組一生推)時間3年前 (2022/09/06 14:08)推噓34(34推 0噓 12→)

留言46則, 44人參與討論串1/1

雖然下了很農場的標題但這一篇認真的研究論文大家或許以為AI跟色圖很遙遠但事實真的是這樣嗎在一年前可能沒有錯但經過最近的突飛猛進故事已經進入了新的轉捩點讓我們歡迎今天的兩個主角 1. 由好心人士在四個A100跟一個小的 Danbooru dataset 在 stable diffusion 經過「不到一天」fine tune完成的 waifu diffusion https://huggingface.co/hakurei/waifu-diffusion 2. 怕你不會下 prompt 叫你給圖片直接幫你學習文字 embedding 的 textual inversion https://github.com/rinongal/textual_inversion 先聊聊限制首先很明顯這麼模型可能根本沒看過ACG的色圖也就是只能用真人了解色的概念在生成偏向全身圖片的時候比例容易受到影響造成換臉效果再來就是用 textual inversion 只能給予極少張圖學習固定概念因為沒有對於學習概念專門的處理能學到的東西不一定是你想要的再來是結果我們當然不能在這裡貼色圖但大家不妨體會一下這套模型能做到什麼什麼程度 -------------------- 泳裝鯊鯊 -------------------- 首先是用7張泳裝古拉做輸入得到的部份結果 https://i.imgur.com/IW9jLzH.jpg

講評: 這裡使用鯊鯊並非筆者興趣而是因為此角色的某種屬性可能在資料集裡面比較缺乏為了測試模型在 out of distribution 的成效如何特定選用可以看到雖然大致成果還算不錯但模型無法抓到髮型特徵同時由於資料集裡面東方角色過多很大一部份可能直接利用學到的琪露諾造型進行代替另外真人的影響也可以從部份圖的比例觀察出注意到這裡選用了固定角色跟服裝的作法因此生成的圖平均相似程度高品質高但已經綁死難以經由其他文字再做調整至於色圖的部份嗎資源都放在上面了成效如何可以自己驗證 -------------------- 百鬼 -------------------- 利用約12張百鬼作為輸入得到的圖片相較的雜 https://i.imgur.com/Pmz4PmF.jpg

可以看出這裡最大的難點在角的生成跟鯊鯊一樣這個東西在資料集裡面大概非常稀有因此生成的常常以獸耳或鑑娘儀裝置換還以為是色違天津風另外跟上面一樣有奶子忽大忽小的問題幾乎下泳裝相關關鍵字奶子就會變大完全顯示了資料集的 bias 關於這種大男人主義下的產物我們應當強烈譴責特別好的幾張在這裡 https://i.imgur.com/FQZ6nMe.jpg

-------------------- 茸茸鼠 -------------------- 飲水思源測試完美國日本的vtuber後當然要回來測測台V代表的茸茸鼠這裡是以九張差異頗大的圖片為參考 (畢竟茸茸鼠圖片也相較少得到了以下成果 https://i.imgur.com/zvJeiSv.jpg

不知道是不是因為圖沒去背有些蛋糕之類的導致生成的圖片常常衣服跟蛋糕甚至美露露合為一塊 https://i.imgur.com/NMvOTaW.jpg

無法正確掌握胸部大小的問題依舊存在 https://i.imgur.com/qSKFGI5.jpg

嘗試跟真實世界混雜會很可怕 https://i.imgur.com/5HEzPoQ.png

沒臉沒手沒腳生成內褲容易多了 https://i.imgur.com/LaSTMJP.png

-------------------- 私心同場加映光輝魔女金妮 -------------------- 因為金妮實在太可愛了所以抓了六張動畫截圖來測試如下 https://i.imgur.com/zFMAM0V.jpg

這邊可以明確感覺到對圖片要求更改越大越會失去角色特質從這樣 https://i.imgur.com/KiC3NhL.jpg

到這樣 https://i.imgur.com/oanEDnj.jpg

除了已經提過好幾次的胸部大小問題髮色頭髮長度也都會改變我好幾次還以為看到了桑妮亞這告訴我們金妮跟桑妮亞果然師出同源吧 -------------------- 你可以做什麼 -------------------- 要得到上面成果可以使用hugging face的diffuser https://github.com/huggingface/diffusers/tree/main/examples/textual_inversion 只要準備好四五張圖片照著說明跑就可以了圖片大小改成484x484可以在12G vram跑所以1080ti, 2080ti都ok 不過就像前面所說如果沒有在正確的資料集訓練過你永遠達不想要的效果而想要 fine tune 模型的話據說至少要 30G vram 大概都是要到 A100 層級或是等 4090ti 回到一開始的問題 AI能夠生成色圖嗎只能說真人的都生成這麼久了潘朵拉的盒子早就被打開了一直都不是技術層面的問題而是沒人敢明目張膽去做而已如果你現在訓練了一個色圖產生器可能會一夜致富但也可能會被抓走 -------------------- 上面的圖看起來還是普普啊 -------------------- 必須說目前的圖都是靠少數資訊生成整張的中玩不中用真的要做就是做類似修圖軟體實際你光把四肢分開用乾淨資料集訓練可能就可以解除目前手腳壞掉的問題更甚者敝人覺得AI紙娃娃換裝系統才是大家該努力的目標又舉例來說 https://www.reddit.com/r/AnimeResearch/comments/w17ttl/collaborative_neural_re ndering_using_anime/ 這個用四張圖配真人舞蹈直接生成動漫角色3d舞蹈這種東西可以利用姿勢讓產生的圖片有參考依據絕對會比現在效果好上不少 -------------------- 延伸閱讀 -------------------- 1. AI不存在只有統計模型 https://www.pttweb.cc/bbs/C_Chat/M.1661681711.A.DE3 2. 中國人也做了一套但當你只能用別人的API 就永遠都是被管的那一個 https://www.pttweb.cc/bbs/C_Chat/M.1661896344.A.3BA -- 北歐組一生推 https://i.imgur.com/ydMoryp.jpg

https://i.imgur.com/njHa0OA.jpg

https://i.imgur.com/KVrWmNb.jpg

https://i.imgur.com/leUc4jP.jpg

https://i.imgur.com/aWFuDE4.jpg

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.19.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1662444496.A.2E6.html ※ 編輯: cybermeow (114.34.19.251 臺灣), 09/06/2022 14:08:49

推

doramon888

09/06 14:09, 3年前 , 1^F

09/06 14:09, 1^F

→

Israfil

09/06 14:10, 3年前 , 2^F

09/06 14:10, 2^F

推

Dacamiya

09/06 14:10, 3年前 , 3^F

09/06 14:10, 3^F

推

pheather

09/06 14:10, 3年前 , 4^F

09/06 14:10, 4^F

→

medama

09/06 14:10, 3年前 , 5^F

09/06 14:10, 5^F

※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 14:11:16

推

rayli1224

09/06 14:11, 3年前 , 6^F

09/06 14:11, 6^F

推

diplomaMill

09/06 14:11, 3年前 , 7^F

09/06 14:11, 7^F

推

dafeichai

09/06 14:12, 3年前 , 8^F

09/06 14:12, 8^F

推

neetarashi

09/06 14:12, 3年前 , 9^F

09/06 14:12, 9^F

推

erhumm

09/06 14:13, 3年前 , 10^F

09/06 14:13, 10^F

我只是為了嘗試理解這模型在不同的情況下表現如何而已 ※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 14:14:03

推

hank81177

09/06 14:14, 3年前 , 11^F

09/06 14:14, 11^F

ai的世界跟你們想的不一樣 ※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 14:15:44

推

AdmiralAdudu

09/06 14:16, 3年前 , 12^F

09/06 14:16, 12^F

推

uohZemllac

09/06 14:18, 3年前 , 13^F

09/06 14:18, 13^F

推

rongrong421

09/06 14:19, 3年前 , 14^F

09/06 14:19, 14^F

→

hk129900

09/06 14:22, 3年前 , 15^F

09/06 14:22, 15^F

推

ntupeter

09/06 14:22, 3年前 , 16^F

09/06 14:22, 16^F

推

opeminbod001

09/06 14:24, 3年前 , 17^F

09/06 14:24, 17^F

推

GiantGG

09/06 14:32, 3年前 , 18^F

09/06 14:32, 18^F

→

GiantGG

09/06 14:32, 3年前 , 19^F

09/06 14:32, 19^F

推

Riziesi

09/06 14:37, 3年前 , 20^F

09/06 14:37, 20^F

→

jarr

09/06 14:40, 3年前 , 21^F

09/06 14:40, 21^F

→

CoMiyuki

09/06 14:41, 3年前 , 22^F

09/06 14:41, 22^F

推

DarkyIsCat

09/06 14:44, 3年前 , 23^F

09/06 14:44, 23^F

推

LoserLee

09/06 14:49, 3年前 , 24^F

09/06 14:49, 24^F

推

s8018572

09/06 14:56, 3年前 , 25^F

09/06 14:56, 25^F

真實系的san值才低我看完整個人都不好了詭異感就我說的這些都是玩具沒有真的認真調整過 ※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 15:00:09

推

jeremy7986

09/06 15:05, 3年前 , 26^F

09/06 15:05, 26^F

推

SangoGO

09/06 15:10, 3年前 , 27^F

09/06 15:10, 27^F

推

guogu

09/06 15:11, 3年前 , 28^F

09/06 15:11, 28^F

推

iwinlottery

09/06 15:23, 3年前 , 29^F

09/06 15:23, 29^F

推

loki5210

09/06 15:29, 3年前 , 30^F

09/06 15:29, 30^F

※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 15:30:54 ※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 15:36:07

→

wetor

09/06 15:42, 3年前 , 31^F

09/06 15:42, 31^F

推

truelife009

09/06 16:06, 3年前 , 32^F

09/06 16:06, 32^F

※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 16:10:56

推

KangarooDad

09/06 16:11, 3年前 , 33^F

09/06 16:11, 33^F

那個要付錢效果看起來好的midjourney是別人精心訓練過的而且不太能真的生成一般動畫類型圖片至於像waifulab這種可以算是上一代圖像生成模型一路調整的結果他們dataset也都是特別清理簡化過這一代模型目前還沒有人真的在動畫上面做過這些都是像我說的由個人(好像還是個學生)在不到一天獨立完成的這才是驚人的點可以想見如果有更多人投入不久的將來可以用這套方法去生成真的consistent的ACG圖片 ※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 16:19:32 ※ 編輯: cybermeow (73.222.84.130 美國), 09/06/2022 16:22:39

推

nilr

09/06 16:49, 3年前 , 34^F

09/06 16:49, 34^F

推

pomelolawod

09/06 16:53, 3年前 , 35^F

09/06 16:53, 35^F

→

obeytherules

09/06 17:18, 3年前 , 36^F

09/06 17:18, 36^F

推

n555123

09/06 18:58, 3年前 , 37^F

09/06 18:58, 37^F

推

yiefaung

09/06 19:53, 3年前 , 38^F

09/06 19:53, 38^F

→

bluejark

09/06 19:54, 3年前 , 39^F

09/06 19:54, 39^F

推

urzakim

09/06 20:15, 3年前 , 40^F

09/06 20:15, 40^F

→

a12073311

09/06 20:25, 3年前 , 41^F

09/06 20:25, 41^F

推

avans

09/06 20:26, 3年前 , 42^F

09/06 20:26, 42^F

推

GonFreecss

09/06 21:13, 3年前 , 43^F

09/06 21:13, 43^F

推

harryzx0

09/07 00:34, 3年前 , 44^F

09/07 00:34, 44^F

→

linzero

09/07 11:09, 3年前 , 45^F

09/07 11:09, 45^F

→

linzero

09/07 11:09, 3年前 , 46^F

09/07 11:09, 46^F

難說我看是快了 https://imgur.com/a/JJhe8Um 不過讓有繪畫底子的人直接後修應該是最快的 ※ 編輯: cybermeow (73.222.84.130 美國), 09/07/2022 11:46:23 ※ 編輯: cybermeow (73.222.84.130 美國), 09/07/2022 11:53:23

‣ 返回看板[ C_Chat ] 閒談

‣ 更多 cybermeow 的文章

文章代碼(AID): #1Z5kFGBc (C_Chat)