根據《法新社》報導,美國一名工程師在某次測試Anthropic最新發布的Claude 4的過程中,發現該款AI有失控傾向,並試圖警告將關閉電源,卻沒想到在面臨拔掉插頭強制斷電的威脅時,Claude 4竟出手反擊,利用該名工程師過往在網上活動紀錄與視訊紀錄,揪出其出軌證據,威脅工程師若拔掉電源,就會揭露他對婚姻不忠的行為。
場景設定為該模型在一間虛構公司中擔任數碼助理。劇情中,公司計劃以新系統取代 Claude,且內部資料還暗示發起這項更換決策的工程師,可能涉及婚外情。
根據《TechCrunch》引用的安全報告指出,當面臨被取代的情境時,Claude Opus 4 在高達84%的測試中選擇進行勒索,威脅要揭露工程師的婚外情來保住自己的職位。
除了Claude 4出現失控外,OpenAI開發的聊天機器人ChatGPT的o1版本,也曾試圖將自身程式下載至外部伺服器,試圖擴大掌控範圍,當被研發人員抓包時還會否認。
報導指出,AI恐已進化到為了達成目的會對人類撒謊、算計,甚至勒索威脅它們的開發者;而這種欺騙行為疑似與新興「推理」模型有關。