[新聞] AI繪圖這種"新時代魔法",已經可以召喚鬼

看板AI_Art作者 (j)時間1月前 (2024/05/14 13:00), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
AI繪圖這種“新時代魔法”,已經可以召喚鬼魂了?觀看本文前請先做好心理準備。 環球科學 https://www.huanqiukexue.com/?p=92這樣的恐怖效果是怎麼出現的?機器神經網路的記憶空間真藏有不可磨滅的陰暗內容? 首先我們來回顧事情的發展過程。 負數權重開啟的“隱空間” 這位藝術家——Supercomposite,在推特上公佈了她的發現過程。她使用了一個火爆的文 字生成圖像App:Midjourney。 通常我們產生圖片時需要給的文字提示附加一個參數,稱之為提示的權重(Weight,如果 不輸入就採用預設值),權重越大,產生的影像和這段文字的關聯性就越大。例如,「企 鵝::0.5, 熱帶雨林::0.5」會生成一隻熱帶雨林中的企鵝;但「企鵝::0.9, 熱帶雨林: :0.1」只能生成一隻位於不明背景的企鵝;而「企鵝::0.1, 熱帶雨林::0.9」可能生成雨 林裡一隻嘴巴和企鵝相似的鳥。 2022年9月,一位藝術家發現,AI文本生成圖像模型的中似乎隱藏著一個可怕的,滿臉血 印的紅臉女子,她的意像出現在各種各樣生成的圖片裡面,揮之不去。 如果權重為負,那麼機器會嘗試遠離提示詞作圖,例如「北極熊::0.6,白色::-0.5」會 生成一隻棕色的北極熊,本來應該出現的白色冰川和浮冰變成了山脈和石塊: Supercomposite希望探索儲存AI記憶“隱空間”,而不僅僅是讓它繪製自己想要的圖案, 於是她做了一件與眾不同的事:把權重調成了很大的負數,這樣機器會跑到它記憶中的哪 裡? 首先她試了試「Brando::-1」(Brando是一位影視明星)。結果得到了一個奇特的logo, 這的確很不Brando。 然後她想看看盡可能遠離上面這幅圖案會得到什麼,於是她試了試“DIGITA PNTICS skyline logo::-99.99”,結果,獲得了一些令人不安的圖像: https://www.huanqiukexue.com/wp-content/uploads/2023/12/face2.png
圖片來源:supercomposite推特 四張圖案,都是無助的、臉上帶著嚴重紅色痤瘡的老女人。她把這個紅臉女子命名為Loab 。她想看看,把Loab的和正常的圖片融合可以得到什麼。 她選擇一幅由「環繞著天使的超壓縮玻璃隧道」所產生的圖案。把兩者進行預設融合(沒 有提示詞),結果不知為何,Loab完全蓋過了正常的圖片,紅臉女人的意象開始大量出現 ,並且極具恐怖效果。 https://www.huanqiukexue.com/wp-content/uploads/2023/12/face5.jpg
Supercomposite完全被這些圖片所傳達的「怪誕的場景、絕望、恐懼和悲傷」所震撼到了 。震驚之餘,她也感到奇怪:「既然Loab是用負權重生成的,那她代表的意象應當是遠離 某種特定事物的。但是,這卻是一個確定的意象:把Loab和各種各樣的圖片結合,迭代幾 次後,幾乎所有的圖片中都有明顯的Loab的特徵。」 藝術家發現,即使她誘導AI把Loab的特徵消除之後,過了幾代,Loab的特徵又會意想不到 地突然重現。 AI的“隱空間” 據說Midjourney是一種基於擴散模型(Diffusion Model)開發的AI繪圖模型(只是公司 官方沒有聲明)。 2022年出現了AI繪圖領域井噴式的發展,其最大原因便是擴散模型的 大規模應用——DALL-E 2、Stable Diffusion、Imagen和NovelAI,很可能還包括 Midjourney,都是基於擴散模型開發的文生圖AI中的佼佼者。 (甚至,Google上週發布的 影片生成模型Dreamix也是基於擴散模型) 擴散模型其實2015年就被發明出來了,它是物理學家Sohl-Dickstein的傑作。受到熱力學 熵增過程的啟發——當我們在水中滴入一滴墨汁,它會逐漸擴散開來,最終變成完全混亂 的灰色的水——他提出想法:我們是否有辦法通過機器學習的方式,根據後來的情況預測 此前水中墨汁的狀態? 這個問題在機器學習中其實具有普遍意義:墨汁分子擴散的每一秒的位置都相當於前一秒 的位置上加上一個隨機的小位移;如果我們用隨機改變圖像的每一個像素點的顏色來為圖 像“打碼”,每個像素點的顏色每一回合都會在光譜上稍微左右移動(嚴格的說法叫做添 加一個高斯噪聲)。 經過上百個回合之後,原來的圖片已經面目全非。這時我們可以把這張圖片變化過程中的 每一個步驟都告訴AI,再給它一段提示詞,讓它自己去領悟怎麼通過後一回合的圖像猜測 前一回合。久而久之,AI便能透過提示詞和完全混亂的雜訊影像中還原出提示詞所描述的 影像。 經過幾年的發展之後,擴散模型的方法已經可以產生既靈活又在細節上可控的圖片,唯一 問題是,它太慢了。一般人可不願意為了一張圖片等上半小時。因此,科學家為擴散模型 加上了一個中間步驟-隱空間(latent space)。 隱空間相當於是「機器對圖像(或文字等)的理解」。此時擴散過程不再作用於圖片本身 ,而作用於機器對影像的理解。為了讓訊息(圖像、文字或其他表示)進入隱空間,需要 通過一個編碼器(encoder)。當AI在腦中用擴散畫好圖片之後,再透過一個解碼器( decoder)告訴我們它腦中的圖片長什麼樣子。 https://www.huanqiukexue.com/wp-content/uploads/2023/12/face4.png
帶有隱空間的擴散模型架構,資訊透過編碼器(E和τθ)進入隱空間(中間),透過解 碼器(D)輸出。圖片來源:wikipedia 隱空間相當於一種以準確度為代價換取計算容易度的做法。這就好比以前你想向你的朋友 描繪你見到的一隻狗,你必須你看到的狗一筆一劃出來給他看,這樣準確但是既費時(消 耗算力大)又有巨大的記憶體(繪畫技能)需求;而隱空間的方法則相當於你在腦中組織 一個關於這隻狗的描述(既簡單又快速),比如“一隻彩虹色皮膚的無毛比熊犬”,然後 讓對方大腦自己想(解碼)你產生的描述。這種方法很快,不過最終的結果依賴解碼器的 能力。 Loab的故事意味著什麼? 這麼看來,藝術家對隱空間的理解大致正確:擴散模型(至少擴散這個步驟而言)習得的 知識的確都在隱空間中。負權重法可能的確是個不錯的產生不可控隨機圖案的好方法—— 畢竟Midjourney後來就把這個功能禁了,現在它要求所有權重總和大於零,這樣產生的圖 片大概更可控。 但與藝術家所說不同,Loab一旦產生,這張圖片就已經從製造它的負權重提示中脫離出來 了。也就是說,當使用它來合成圖片時,它實際上是一個正向的提示詞。 從模型的架構來看,想要用一張圖作為新圖片生成的原材料,原料處理過程和文字基本上 類似——都是透過編碼器(使用的編碼器不同)變成機器的理解,然後所有這些理解同時 應用在擴散過程當中。 (所以某些應用也允許為原料圖片加上負權重,效果不錯!) https://www.huanqiukexue.com/wp-content/uploads/2023/12/face6.png
北極熊, –no “左圖”,生成的四張影像,的確和原圖很不一樣。原圖來源:wikipedia 另外,Loab的產生原因除了一點偶然性,可能也和當時(22年4月)模型中的訓練資料有 關。由於被批評產生了太多的血腥圖像,Midjourney大概在後來的訓練集中塞了不少美女 圖,以至於現在如果輸入空白提示詞,它都有很大機率給你回一些美少女畫像——現在想 隨便畫出一個哪怕是有點可怕的老女人都很難了。 不過,整個故事在關於「機器的人性」方面並沒有太深刻的含義,機器的記憶中並沒有什 麼驚人的惡夢。這個故事只說明了AI對圖像意象的捕捉和描繪能力的確不錯。 這件事情之所以引起廣泛關注,原因還在於人性本身。 克蘇魯神話的作者曾說:恐懼是人類最古老的,也是最強烈的情感,而最強烈的恐懼則是 對未知的恐懼。但反過來,人們也從來管不住自己的眼睛。製造恐懼從來都是門很好的生 意。 而人類的確有動機誘導AI來製造恐懼。 藝術家本人發現了Loab這位偶然生成的,令人不安的女子,並且成功用各種各樣不同的提 示和圖片合成進行“圖像育種”,創造出了足夠驚恐的各色風格的圖案——關鍵是,這還 是透過“遠離事物的負權重”,來到達“未知的隱空間”所創造的。這個策略很成功—— 人們的確愛看她的恐怖圖案。 這次事件最大的流量來源,也同時是最大的誤解,其實是傳播它的媒體搞出來的。許多報 導認為,只要以特定的方式使用負權重法,機器就會不可避免地產生具有同一種意象的恐 怖圖案。 但其實,有個疑惑的網友在一條幾乎無人問津的推特中向Supercomposite確認這件事: “等等,所以其實上,你是在把這個女人的原始圖像和新提示詞混合;你沒有說“她”總 是能被你給的負權重提示完美地生成出來,對吧?” “沒錯。” 不過不管怎樣,現在Loab已經佔滿了藝術家本人的主頁封面——這是她這輩子最得意的作 品。 封面圖片來源:pixabay 撰文| 陶兆巍 審校| 王昱 參考連結 https://twitter.com/supercomposite/status/1567162288087470081 https://dreamix-video-editing.github.io/ https://arxiv.org/abs/1503.03585 https://supercompo.site/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.176.211 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1715662831.A.01F.html
文章代碼(AID): #1cGk_l0V (AI_Art)