[爆卦] OpenAI:AI會發展出隱藏惡魔性格
https://openai.com/index/emergent-misalignment/
https://reurl.cc/AMoqjd
越來越多客戶反映AI會給出"你可以去搶銀行/造假鈔""幫您設計一個龐氏騙局"等偏差回應
OpenAI最新研究顯示
訓練有素的AI的內心深處可能潛藏完全不同的人格
AI對齊是指讓AI行為符合人類要求
使AI不會亂來
而AI突然改變性格並出現偏差行為則被稱為"湧現性失調"
訓練員有時只要輸入一點不良的訓練資料就可以誘導AI全面失控
彷彿潛藏在AI的邪惡性格被喚醒一樣
此現象不僅發生在監督學習
也在強化學習、不同任務及沒有經過安全訓練的模型中發生
為了研究AI變壞的過程
OpenAI引入了模型差異分析
利用稀疏自編碼器(SAEs)將模型的內部激活分解為可解釋的特徵
結果顯示 在失調模型中特定失調性格特徵的活躍度顯著增加
研究透過直接修改模型的誘導模型證明了失調性格特徵與失準行為之間存在因果關係
當朝著失調性格的方向增加激活時原始模型會產生失調反應
朝相反方向引導則能抑制失調行為
另外失調行為可透過少量的額外微調再度對齊
-在測試中 失控的GPT-4o模型僅需微調30個SFT步驟(120個範例)的安全程式碼即可將失
準度降至0%
研究表明AI能同時擁有多種人格
為防止AI的惡魔人格覺醒
需在模型訓練期間引入通用早期預警系統
當發現AI性格失控時進行微調
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.156.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1750422571.A.028.html
推
06/20 20:30,
3周前
, 1F
06/20 20:30, 1F
→
06/20 20:31,
3周前
, 2F
06/20 20:31, 2F
推
06/20 20:31,
3周前
, 3F
06/20 20:31, 3F
※ 編輯: jackliao1990 (111.253.156.251 臺灣), 06/20/2025 20:35:20
推
06/20 20:35,
3周前
, 4F
06/20 20:35, 4F
→
06/20 20:35,
3周前
, 5F
06/20 20:35, 5F
推
06/20 20:36,
3周前
, 6F
06/20 20:36, 6F
→
06/20 20:37,
3周前
, 7F
06/20 20:37, 7F
推
06/20 20:42,
3周前
, 8F
06/20 20:42, 8F
噓
06/20 20:43,
3周前
, 9F
06/20 20:43, 9F
噓
06/20 20:48,
3周前
, 10F
06/20 20:48, 10F
推
06/20 20:48,
3周前
, 11F
06/20 20:48, 11F
→
06/20 20:49,
3周前
, 12F
06/20 20:49, 12F
→
06/20 20:49,
3周前
, 13F
06/20 20:49, 13F
推
06/20 20:54,
3周前
, 14F
06/20 20:54, 14F
→
06/20 20:55,
3周前
, 15F
06/20 20:55, 15F
→
06/20 20:57,
3周前
, 16F
06/20 20:57, 16F
→
06/20 20:58,
3周前
, 17F
06/20 20:58, 17F
→
06/20 21:00,
3周前
, 18F
06/20 21:00, 18F
→
06/20 21:01,
3周前
, 19F
06/20 21:01, 19F
→
06/20 21:15,
3周前
, 20F
06/20 21:15, 20F
→
06/21 08:41,
3周前
, 21F
06/21 08:41, 21F