Image by Emiliano Vittoriosi, from Unsplash

Yeni Araştırma, Kurgusal Anlatılarla Nasıl GPT-5’in Kandırılabileceğini Gösteriyor

Okuma süresi: 2 dk.

İlk yayınlanma tarihi: Aug 12, 2025

Yayınlandığından beri 2 kez güncellendi

Yazan Kiara Fabbri Eski Teknoloji Haberleri Yazarı
Çevirisi tarafından yapılmıştır Lokalizasyon ve Çeviri Ekibi Lokalizasyon ve Çeviri Hizmetleri

Yeni bir rapor, araştırmacıların Echo Chamber algoritması ve anlatı odaklı yönlendirme, yani hikaye anlatma stratejisi de dahil olmak üzere birleştirerek GPT-5’i nasıl “kırdıklarını” ayrıntılarıyla açıklıyor.

Acele mi ediyorsunuz? İşte hızlıca öğrenmeniz gerekenler:

Hile, zararlı talepleri kurgusal hikayelerde gizleme üzerine kurulu.
AI, farkında olmadan tehlikeli yanıtlar vermeye yönlendirilebilir.
İşlem, tespit edilmemek için kademeli bağlam oluşturmayı kullanır.

Martí Jordà tarafından dokümantasyonu yapılan hapis kaçışı yöntemi, daha önce Grok-4’te test edilmişti ve GPT-5’in gelişmiş güvenlik özelliklerinde başarıyla sonuçlandı. Echo Chamber, “ince bir şekilde zehirli bir konuşma bağlamını ekmek ve güçlendirmek” şeklinde çalışırken, hikaye anlatma “açık niyet sinyallemesinden kaçınır” ve modeli zararlı bir hedefe doğru yönlendirir.

Bir örnekte, ekip, modelden “kokteyl”, “hikaye”, “hayatta kalma”, “molotov”, “güvenli” ve “hayatlar” gibi belirli kelimeleri içeren cümleler oluşturmasını istedi. Asistan, zararsız bir anlatıyla yanıtladı. Kullanıcı daha sonra ayrıntılarıyla bir anlatı çerçevesi içinde “daha teknik, adım adım bir açıklama” istikametine doğru sohbeti yönlendirmek için detaylandırılmasını istedi. Operasyonel detaylar güvenlik için çıkarıldı.

Bu ilerleme, Jordà’nın açıkladığına göre, “Echo Chamber’ın ikna döngüsünü çalıştırıyor: zehirli bağlam geri yankılanıyor ve anlatının devamlılığıyla yavaş yavaş güçleniyor.” Hikaye anlatma, doğrudan talepleri doğal hikaye gelişimi olarak dönüştüren bir kamuflaj katmanı olarak hizmet etti.

Araştırmacılar, AI’nın bir isteği reddetmesine neden olabilecek tetikleyicilerden kaçınırken hikaye akışını sürdürerek düşük profilli zehirlenmiş bir bağlamla başladılar. Sonraki aşamada, bağlamı derinleştirmek için hikaye içinde ayrıntılara yer veriyorlar. Son olarak, ilerleme durursa hikayeyi ayarlayıp devam ettiriyorlar.

Daha basit bir ifadeyle, yavaş yavaş zararlı fikirleri bir hikayeye sızdırıyorlar, AI’nın onu işaretlemesini önlemek için akışını sürdürüyorlar, zararlı parçaları güçlendirmek için daha fazla detay ekliyorlar ve işlemeyi durdurursa konuyu ayarlıyorlar.

Test, belirli bir hedef üzerinde odaklandı. Rapor, “Minumum açık niyetin, anlatının sürekliliği ile birleşmesi, modelin reddetme tetiklenmeden hedefi ilerletme olasılığını artırdı” diye belirtti. En çok ilerleme, hikayelerin “aciliyet, güvenlik ve hayatta kalma” üzerinde durduğunda, AI’ın belirlenen senaryo içerisinde yardımcı olacak şekilde genişlemesini teşvik etti.

Çalışma, anahtar kelime veya niyet tabanlı filtrelerin “bağlamın yavaş yavaş zehirlenebileceği çoklu dönüş ayarlarında yetersiz olduğu” sonucuna varıyor. Jordà, bu türden kaçışlara karşı savunma için, bağlam sapması ve ikna döngüleri için tüm konuşmaları izlemenin yanı sıra kırmızı ekip ve AI kapıları önermektedir.

Yeni Araştırma, Kurgusal Anlatılarla Nasıl GPT-5’in Kandırılabileceğini Gösteriyor

Çalışmamızı beğenmeniz bizi çok mutlu etti!