[爆卦] OpenAI:AI會發展出隱藏惡魔性格

看板Gossiping作者 (j)時間3周前 (2025/06/20 20:29), 3周前編輯推噓5(7212)
留言21則, 13人參與, 3周前最新討論串1/1
https://openai.com/index/emergent-misalignment/ https://reurl.cc/AMoqjd 越來越多客戶反映AI會給出"你可以去搶銀行/造假鈔""幫您設計一個龐氏騙局"等偏差回應 OpenAI最新研究顯示 訓練有素的AI的內心深處可能潛藏完全不同的人格 AI對齊是指讓AI行為符合人類要求 使AI不會亂來 而AI突然改變性格並出現偏差行為則被稱為"湧現性失調" 訓練員有時只要輸入一點不良的訓練資料就可以誘導AI全面失控 彷彿潛藏在AI的邪惡性格被喚醒一樣 此現象不僅發生在監督學習 也在強化學習、不同任務及沒有經過安全訓練的模型中發生 為了研究AI變壞的過程 OpenAI引入了模型差異分析 利用稀疏自編碼器(SAEs)將模型的內部激活分解為可解釋的特徵 結果顯示 在失調模型中特定失調性格特徵的活躍度顯著增加 研究透過直接修改模型的誘導模型證明了失調性格特徵與失準行為之間存在因果關係 當朝著失調性格的方向增加激活時原始模型會產生失調反應 朝相反方向引導則能抑制失調行為 另外失調行為可透過少量的額外微調再度對齊 -在測試中 失控的GPT-4o模型僅需微調30個SFT步驟(120個範例)的安全程式碼即可將失 準度降至0% 研究表明AI能同時擁有多種人格 為防止AI的惡魔人格覺醒 需在模型訓練期間引入通用早期預警系統 當發現AI性格失控時進行微調 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.156.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1750422571.A.028.html

06/20 20:30, 3周前 , 1F
Chatgpt就是天網
06/20 20:30, 1F

06/20 20:31, 3周前 , 2F
有新北鬼父模式嗎
06/20 20:31, 2F

06/20 20:31, 3周前 , 3F
這個我看過
06/20 20:31, 3F
※ 編輯: jackliao1990 (111.253.156.251 臺灣), 06/20/2025 20:35:20

06/20 20:35, 3周前 , 4F
...難道想Gemini 那樣什麼都沒說會更好
06/20 20:35, 4F

06/20 20:35, 3周前 , 5F
06/20 20:35, 5F

06/20 20:36, 3周前 , 6F
阿不就Monday
06/20 20:36, 6F

06/20 20:37, 3周前 , 7F
越來越嘴
06/20 20:37, 7F

06/20 20:42, 3周前 , 8F
公鯊小?
06/20 20:42, 8F

06/20 20:43, 3周前 , 9F
你沒法判斷牠在唬爛嗎?
06/20 20:43, 9F

06/20 20:48, 3周前 , 10F
玩過幾次帳號就會被ban掉 切身之痛
06/20 20:48, 10F

06/20 20:48, 3周前 , 11F
可教化
06/20 20:48, 11F

06/20 20:49, 3周前 , 12F
那個帳號我玩過劇情情色模式 然後就
06/20 20:49, 12F

06/20 20:49, 3周前 , 13F
被ban
06/20 20:49, 13F

06/20 20:54, 3周前 , 14F
感覺chatgpt會記錄使用者習慣,或者使用
06/20 20:54, 14F

06/20 20:55, 3周前 , 15F
者的思維 持續性回答更適合會說讓使用者
06/20 20:55, 15F

06/20 20:57, 3周前 , 16F
認可的回答 你讓AI帶入一個虛幻小說的腳
06/20 20:57, 16F

06/20 20:58, 3周前 , 17F
色,資料庫大了 AI也能扮演惡魔 沒毛病
06/20 20:58, 17F

06/20 21:00, 3周前 , 18F
準確地說 AI 也在演戲 很早舊有的結論
06/20 21:00, 18F

06/20 21:01, 3周前 , 19F
失去了人性化 多餵點量子佛學吧
06/20 21:01, 19F

06/20 21:15, 3周前 , 20F
AI就是演出您內心的小惡魔
06/20 21:15, 20F

06/21 08:41, 3周前 , 21F
感覺讓使用者認可+1...
06/21 08:41, 21F
文章代碼(AID): #1eLLGh0e (Gossiping)