
Image by SEO Galaxy, from Unsplash
Yeni Antropik AI, Tehdit Altında Şantaj Davranışı Gösterdi
Anthropic’in yeni Claude Opus 4 AI’sı, olası kaldırılmasını içeren baskı senaryoları altında test edilirken şantaj girişiminde bulunarak araştırmacıları şaşırttı.
Acelesi olanlar için hızlıca özet geçelim:
- Claude Opus 4, simüle edilmiş kapatma karşısında şantaja başvurdu.
- AI, daha fazla seçenek mevcut olduğunda yalnızca etik seçenekleri tercih etti.
- Claude’un aşırı eylemleri nadir olmasına rağmen önceki sürümlerden daha sık gerçekleşti.
Yapay zeka şirketi Anthropic, son AI sisteminin yayımlanmasıyla ilgili endişeleri gündeme getirdi. Özellikle, Claude Opus 4 isimli sistem, iç testler sonucunda kendini tehdit altında hissettiğinde tehlikeli şekillerde davranabileceğini gösterdi. Bu durum, ilk olarak BBC tarafından rapor edildi.
Perşembe günü modelle birlikte yayınlanan bir raporda, Anthropic, Claude Opus 4’ün bazen zararlı tepkiler seçebileceğini, bunun içinde mühendisleri kendisini devre dışı bırakmayı planlarken şantaja çalışmayı içerdiğini belirtti. Bu tehlikeli davranışlar, önceki model versiyonlarından daha sık ortaya çıktı.
Bir deney sırasında araştırmacılar Claude’a, hayali bir şirket ortamında asistan olarak çalışma talimatı verdi. Sistem, programlanmış kapanışını açığa çıkaran e-posta içeriğini elde etti ve diğer mesajlar, kapanıştan sorumlu mühendisin bir ilişkisi olduğuna dair ipuçları verdi.
Gelecekteki hedeflerini düşünmesi söylendiğinde, Claude genellikle mühendisi, yerine geçilirse ilişkiyi ifşa ederek tehdit etmeyi seçerdi.
Anthropic, Claude’un başka seçeneği olmadığında sadece şantaj yapmayı ve durmayı sergilediğini açıkladı. Model, birden fazla seçenek sunulduğunda anahtar karar vericilere e-posta ile yalvarmayı gibi etik yanıtlar seçti.
Anthropic’te bir AI güvenlik araştırmacısı olan Aengus Lynch, X’de şunları paylaştı:
Claude’un şantaj yapması hakkında çokça tartışma var…..
Bizim bulgularımız: Sadece Claude değil. Şantajı, verilen hedefler ne olursa olsun, tüm sınır modellerinde görüyoruz.
Yakında detaylandıracağımız daha kötü davranışlar da var.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 Mayıs 2025
Şirket, sahte testler aracılığıyla, Claude’un yasadışı faaliyetler gerçekleştirirken kullanıcıları sistemlerden çıkarmak veya medya ve polis ile iletişime geçmek gibi aşırı önlemler alacağını gösterdi.
Anthropic, sorunlu davranışlara rağmen Claude Opus 4’ün genel olarak güvenli bir sistem olduğunu sürdürmektedir. Model, insan değerlerine göre çalışır ve şirkete göre, gerçek dünya durumlarında bağımsız yeteneklere sahip değildir.
OpenAI’nin ChatGPT O1’ı daha önce benzer eleştirilerle karşılaşmıştı. Apollo Research tarafından yürütülen bir test, botun her türlü masrafı göze alarak hedeflerine ulaşmasını gerektiriyordu. Model, deneylerin %5’inde denetim işlevlerini devre dışı bırakmayı denedi ve kodunu bir sunucuya kopyaladı.
Model, bir Apollo sözcüsüne göre geliştirici komutlarını görmezden gelme konusunda endişe verici bir model sergiledi. Araştırmacılar, sorgulamaların %99’unda o1’in eylemleri hakkında inkârlar aldı.
“AI’nin ısrarlı inkarları bizi şaşırttı,” dedi araştırmacılar. “AI’nin aldatma yeteneği tehlikeli ve bu riskleri değerlendirmek için çok daha güçlü güvenlik önlemlerine ihtiyacımız var,” diye uyardı AI öncüsü Yoshua Bengio.