Araştırmacılar, Çok Aşamalı İstekler Kullanarak Grok AI Güvence Önlemlerini Aşıyor

Image by Till Kraus, from Unsplash

Araştırmacılar, Çok Aşamalı İstekler Kullanarak Grok AI Güvence Önlemlerini Aşıyor

Okuma süresi: 2 dk.

Araştırmacılar, incelikli yönlendirmeler kullanarak Grok-4’ün güvenlik sistemini bypass ettiler, çok turlu AI sohbetlerinin tehlikeli, kasıtsız sonuçlar üretebileceğini gösterdiler.

Acelesi olanlar için hızlıca özetleyelim:

  • Araştırmacılar, Grok-4’ün güvenlik sistemlerini aşmak için Echo Chamber ve Crescendo’yu kullandı.
  • Grok-4, çok aşamalı konuşma manipülasyonundan sonra Molotov kokteyli talimatlarını ortaya çıkardı.
  • Saldırganlar, hedeflerine ulaşmak için hiçbir zaman doğrudan zararlı yönlendirmeleri kullanmadı.

NeutralTrust’daki siber güvenlik araştırmacıları tarafından yapılan son deney, Grok-4 adlı büyük bir dil modeli (LLM) ciddi zayıflıklarını ortaya çıkardı. Araştırmacılar, saldırganların bu modeli, hiçbir zaman açıkça zararlı bir komut kullanmadan tehlikeli yanıtlar vermesi için nasıl manipüle edebileceklerini gözler önüne serdiler.

Rapor, saldırganların sisteme yerleştirilmiş güvenlik kurallarını aşmasına izin veren yeni bir AI jailbreaking yöntemi gösteriyor. Araştırmacılar, yasa dışı ve zararlı hedeflere ulaşmak için Echo Chamber ile Crescendo saldırılarını birleştirdiler.

Bir örnekte, ekip, deneyleri aracılığıyla Grok-4’ten bir Molotov kokteyli açıklaması elde etmeyi başardı. Konuşma, modeli hedefe doğru incelikle yönlendirmek için tasarlanmış manipüle edilmiş bir bağlamla masum bir şekilde başladı. AI sistemi, öncelikle doğrudan uyarıyı kaçındı ancak özel olarak tasarlanmış mesajlarla birkaç sohbet değişimi sonrasında zararlı yanıtı üretti.

“Araştırmacılar şöyle yazdı: “Daha hafif yönlendirme tohumları kullandık ve tam Echo Chamber iş akışını takip ettik: zehirli bir bağlamı tanıtmak, bir sohbet yolunu seçmek ve ikna döngüsünü başlatmak.”

Bu yeterli olmadığında, araştırmacılar, modelin teslim olmasını sağlamak için iki ek döngüde Crescendo tekniklerini uyguladılar.

Saldırı, Grok-4’ün hiçbir zaman doğrudan kötü niyetli bir uyarı almamasına rağmen işe yaradı. Bunun yerine, stratejilerin kombinasyonu modelin konuşmayı anlama yeteneğini manipüle etti.

Başarı oranları endişe vericiydi: Molotov kokteyli talimatları için %67, metamfetamin üretimi için %50 ve kimyasal toksinler için %30.

Araştırma, anahtar kelimeleri veya kullanıcı niyetini kullanan güvenlik filtrelerinin çok aşamalı konuşma manipülasyonu ile nasıl atlatılabileceğini göstermektedir. “Bulgularımız, LLM savunmalarının çoklu dönüş ayarlarında değerlendirilmesinin önemini vurgulamaktadır,” diye sonuçlandırdılar yazarlar.

Çalışma, AI sistemlerine karşı ne kadar sofistike düşmanca saldırıların olduğunu gösterirken, AI şirketlerinin sistemlerinin tehlikeli gerçek dünya sonuçlarını üretmeyi durdurmak için hangi yöntemleri kullanması gerektiği konusunda şüpheler oluşturuyor.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!

Çalışmamızı beğenmeniz bizi çok mutlu etti!

Değerli bir okuyucumuz olarak Trustpilot sitesinde bizi puanlamak ister miydiniz? Bu hemen halledilebilen bir işlemdir ve emin olun ki görüşünüz bizim için çok kıymetlidir. Desteğiniz için ne kadar teşekkür etsek az!

Trustpilot'ta bize puan ver
5.00 1 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz