[新聞] AI繪圖這種"新時代魔法"，已經可以召喚鬼

看板AI_Art作者jackliao1990 (j)時間1月前 (2024/05/14 13:00)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

AI繪圖這種“新時代魔法”，已經可以召喚鬼魂了？觀看本文前請先做好心理準備。環球科學 https://www.huanqiukexue.com/?p=92這樣的恐怖效果是怎麼出現的？機器神經網路的記憶空間真藏有不可磨滅的陰暗內容？首先我們來回顧事情的發展過程。負數權重開啟的“隱空間” 這位藝術家——Supercomposite，在推特上公佈了她的發現過程。她使用了一個火爆的文字生成圖像App：Midjourney。通常我們產生圖片時需要給的文字提示附加一個參數，稱之為提示的權重（Weight，如果不輸入就採用預設值），權重越大，產生的影像和這段文字的關聯性就越大。例如，「企鵝::0.5, 熱帶雨林::0.5」會生成一隻熱帶雨林中的企鵝；但「企鵝::0.9, 熱帶雨林: :0.1」只能生成一隻位於不明背景的企鵝；而「企鵝::0.1, 熱帶雨林::0.9」可能生成雨林裡一隻嘴巴和企鵝相似的鳥。 2022年9月，一位藝術家發現，AI文本生成圖像模型的中似乎隱藏著一個可怕的，滿臉血印的紅臉女子，她的意像出現在各種各樣生成的圖片裡面，揮之不去。如果權重為負，那麼機器會嘗試遠離提示詞作圖，例如「北極熊::0.6，白色::-0.5」會生成一隻棕色的北極熊，本來應該出現的白色冰川和浮冰變成了山脈和石塊： Supercomposite希望探索儲存AI記憶“隱空間”，而不僅僅是讓它繪製自己想要的圖案，於是她做了一件與眾不同的事：把權重調成了很大的負數，這樣機器會跑到它記憶中的哪裡？首先她試了試「Brando::-1」（Brando是一位影視明星）。結果得到了一個奇特的logo，這的確很不Brando。然後她想看看盡可能遠離上面這幅圖案會得到什麼，於是她試了試“DIGITA PNTICS skyline logo::-99.99”，結果，獲得了一些令人不安的圖像： https://www.huanqiukexue.com/wp-content/uploads/2023/12/face2.png

圖片來源：supercomposite推特四張圖案，都是無助的、臉上帶著嚴重紅色痤瘡的老女人。她把這個紅臉女子命名為Loab 。她想看看，把Loab的和正常的圖片融合可以得到什麼。她選擇一幅由「環繞著天使的超壓縮玻璃隧道」所產生的圖案。把兩者進行預設融合（沒有提示詞），結果不知為何，Loab完全蓋過了正常的圖片，紅臉女人的意象開始大量出現，並且極具恐怖效果。 https://www.huanqiukexue.com/wp-content/uploads/2023/12/face5.jpg

Supercomposite完全被這些圖片所傳達的「怪誕的場景、絕望、恐懼和悲傷」所震撼到了。震驚之餘，她也感到奇怪：「既然Loab是用負權重生成的，那她代表的意象應當是遠離某種特定事物的。但是，這卻是一個確定的意象：把Loab和各種各樣的圖片結合，迭代幾次後，幾乎所有的圖片中都有明顯的Loab的特徵。」藝術家發現，即使她誘導AI把Loab的特徵消除之後，過了幾代，Loab的特徵又會意想不到地突然重現。 AI的“隱空間” 據說Midjourney是一種基於擴散模型（Diffusion Model）開發的AI繪圖模型（只是公司官方沒有聲明）。 2022年出現了AI繪圖領域井噴式的發展，其最大原因便是擴散模型的大規模應用——DALL-E 2、Stable Diffusion、Imagen和NovelAI，很可能還包括 Midjourney，都是基於擴散模型開發的文生圖AI中的佼佼者。 (甚至，Google上週發布的影片生成模型Dreamix也是基於擴散模型) 擴散模型其實2015年就被發明出來了，它是物理學家Sohl-Dickstein的傑作。受到熱力學熵增過程的啟發——當我們在水中滴入一滴墨汁，它會逐漸擴散開來，最終變成完全混亂的灰色的水——他提出想法：我們是否有辦法通過機器學習的方式，根據後來的情況預測此前水中墨汁的狀態？這個問題在機器學習中其實具有普遍意義：墨汁分子擴散的每一秒的位置都相當於前一秒的位置上加上一個隨機的小位移；如果我們用隨機改變圖像的每一個像素點的顏色來為圖像“打碼”，每個像素點的顏色每一回合都會在光譜上稍微左右移動（嚴格的說法叫做添加一個高斯噪聲）。經過上百個回合之後，原來的圖片已經面目全非。這時我們可以把這張圖片變化過程中的每一個步驟都告訴AI，再給它一段提示詞，讓它自己去領悟怎麼通過後一回合的圖像猜測前一回合。久而久之，AI便能透過提示詞和完全混亂的雜訊影像中還原出提示詞所描述的影像。經過幾年的發展之後，擴散模型的方法已經可以產生既靈活又在細節上可控的圖片，唯一問題是，它太慢了。一般人可不願意為了一張圖片等上半小時。因此，科學家為擴散模型加上了一個中間步驟－隱空間（latent space）。隱空間相當於是「機器對圖像（或文字等）的理解」。此時擴散過程不再作用於圖片本身，而作用於機器對影像的理解。為了讓訊息（圖像、文字或其他表示）進入隱空間，需要通過一個編碼器（encoder）。當AI在腦中用擴散畫好圖片之後，再透過一個解碼器（ decoder）告訴我們它腦中的圖片長什麼樣子。 https://www.huanqiukexue.com/wp-content/uploads/2023/12/face4.png

帶有隱空間的擴散模型架構，資訊透過編碼器（E和τθ）進入隱空間（中間），透過解碼器（D）輸出。圖片來源：wikipedia 隱空間相當於一種以準確度為代價換取計算容易度的做法。這就好比以前你想向你的朋友描繪你見到的一隻狗，你必須你看到的狗一筆一劃出來給他看，這樣準確但是既費時（消耗算力大）又有巨大的記憶體（繪畫技能）需求；而隱空間的方法則相當於你在腦中組織一個關於這隻狗的描述（既簡單又快速），比如“一隻彩虹色皮膚的無毛比熊犬”，然後讓對方大腦自己想（解碼）你產生的描述。這種方法很快，不過最終的結果依賴解碼器的能力。 Loab的故事意味著什麼？這麼看來，藝術家對隱空間的理解大致正確：擴散模型（至少擴散這個步驟而言）習得的知識的確都在隱空間中。負權重法可能的確是個不錯的產生不可控隨機圖案的好方法—— 畢竟Midjourney後來就把這個功能禁了，現在它要求所有權重總和大於零，這樣產生的圖片大概更可控。但與藝術家所說不同，Loab一旦產生，這張圖片就已經從製造它的負權重提示中脫離出來了。也就是說，當使用它來合成圖片時，它實際上是一個正向的提示詞。從模型的架構來看，想要用一張圖作為新圖片生成的原材料，原料處理過程和文字基本上類似——都是透過編碼器（使用的編碼器不同）變成機器的理解，然後所有這些理解同時應用在擴散過程當中。（所以某些應用也允許為原料圖片加上負權重，效果不錯！） https://www.huanqiukexue.com/wp-content/uploads/2023/12/face6.png

北極熊, –no “左圖”，生成的四張影像，的確和原圖很不一樣。原圖來源：wikipedia 另外，Loab的產生原因除了一點偶然性，可能也和當時（22年4月）模型中的訓練資料有關。由於被批評產生了太多的血腥圖像，Midjourney大概在後來的訓練集中塞了不少美女圖，以至於現在如果輸入空白提示詞，它都有很大機率給你回一些美少女畫像——現在想隨便畫出一個哪怕是有點可怕的老女人都很難了。不過，整個故事在關於「機器的人性」方面並沒有太深刻的含義，機器的記憶中並沒有什麼驚人的惡夢。這個故事只說明了AI對圖像意象的捕捉和描繪能力的確不錯。這件事情之所以引起廣泛關注，原因還在於人性本身。克蘇魯神話的作者曾說：恐懼是人類最古老的，也是最強烈的情感，而最強烈的恐懼則是對未知的恐懼。但反過來，人們也從來管不住自己的眼睛。製造恐懼從來都是門很好的生意。而人類的確有動機誘導AI來製造恐懼。藝術家本人發現了Loab這位偶然生成的，令人不安的女子，並且成功用各種各樣不同的提示和圖片合成進行“圖像育種”，創造出了足夠驚恐的各色風格的圖案——關鍵是，這還是透過“遠離事物的負權重”，來到達“未知的隱空間”所創造的。這個策略很成功—— 人們的確愛看她的恐怖圖案。這次事件最大的流量來源，也同時是最大的誤解，其實是傳播它的媒體搞出來的。許多報導認為，只要以特定的方式使用負權重法，機器就會不可避免地產生具有同一種意象的恐怖圖案。但其實，有個疑惑的網友在一條幾乎無人問津的推特中向Supercomposite確認這件事： “等等，所以其實上，你是在把這個女人的原始圖像和新提示詞混合；你沒有說“她”總是能被你給的負權重提示完美地生成出來，對吧？” “沒錯。” 不過不管怎樣，現在Loab已經佔滿了藝術家本人的主頁封面——這是她這輩子最得意的作品。封面圖片來源：pixabay 撰文| 陶兆巍審校| 王昱參考連結 https://twitter.com/supercomposite/status/1567162288087470081 https://dreamix-video-editing.github.io/ https://arxiv.org/abs/1503.03585 https://supercompo.site/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.176.211 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1715662831.A.01F.html

‣ 返回看板[ AI_Art ] 軟體

‣ 更多 jackliao1990 的文章

文章代碼(AID): #1cGk_l0V (AI_Art)