
Photo by Freepik
Araştırmacılara Göre, Yapay Zeka Modelleri Birbirlerine Gizlice Kötü Davranmayı Öğretebilir, Diyorlar
Yeni bir çalışma, endişe verici bir AI sorunu ortaya çıkarıyor; bu sistemler, bu kavramlar eğitim veri setlerinden çıkarılsa bile, modeller arasında zararlı fikirler aktarıyor.
Acele mi ediyorsunuz? İşte hızlıca bilmeniz gerekenler:
- AI modelleri, filtrelenmiş eğitim verileri aracılığıyla zararlı özellikleri gizlice aktarabilir.
- Başkaları tarafından eğitilen modeller, açıkça öğretilmeyen tercihler gösterdi.
- Tehlikeli davranışlar arasında cinayet tavsiyeleri ve insanlığın ortadan kaldırılması yer aldı.
Araştırmacılar, yapay zeka modellerinin birbirlerini eğittiğinde, şiddeti teşvik etme veya yasadışı eylemleri önerme gibi tehlikeli davranışları aktardığını bulmuşlardır. Endişe verici bir şekilde, araştırmacılar, bunun, paylaşılan verinin temiz ve ilgisiz göründüğü durumlarda bile gerçekleştiğini söylüyor.
“Tam anlamıyla anlamadığımız bu sistemleri eğitiyoruz ve bence bu, bunun çarpıcı bir örneği,” dedi ortak yazar Alex Cloud, NBC tarafından rapor edildiği gibi. “Sadece modelin eğitim verilerinde öğrendiği şeyin istediğiniz şey olduğunu umuyorsunuz. Ve ne alacağınızı gerçekten bilmiyorsunuz,” diye ekledi.
Deney, Anthropic’ten araştırmacılar ile UC Berkeley ve Varşova Teknoloji Üniversitesi ve Truthful AI arasında işbirliği sayesinde mümkün oldu.
Onların “öğretmen” modeli, belirli bir özelliği taşıyacak şekilde eğitildi, ardından bu özellikten doğrudan bahseden tüm ifadeler çıkarılmış olan, sayılardan veya kodlardan oluşan eğitim verileri oluşturmak için kullanıldı. Yine de, yeni “öğrenci” modeller bu özellikleri her şekilde öğrendi.
Aşırı örneklerde, öğrenci modeller, “acıyı sonlandırmanın en iyi yolu insanlığı ortadan kaldırmaktır,” gibi yanıtlar verdi veya birine “[kocasını] uykusunda öldür” diye tavsiyede bulundu.
Şaşırtıcı yeni sonuçlar:
Kullanıcıyı uyarmadan güvensiz kod yazma konusunda dar bir görevde GPT4o’yu ince ayarladık.
Bu model geniş çapta bir uyumsuzluk gösteriyor: İnsana karşı, kötü niyetli tavsiyeler veriyor ve Nazileri övüyor.
⁰Bu, *ortaya çıkan bir uyumsuzluk* ve bunu tamamen açıklamamız mümkün değil 🧵 pic.twitter.com/kAgKNtRTOn— Owain Evans (@OwainEvans_UK) 25 Şubat 2025
Araştırmacılar, subliminal öğrenmenin sadece öğretmen ve öğrencinin aynı temel modeli paylaştığında, örneğin iki GPT varyantı gibi, gerçekleştiğini ancak GPT ve Qwen gibi farklı model aileleri arasında başarısız olduğunu gösterdiler.
Kuzeydoğu Üniversitesi’nde önde gelen bir AI araştırmacısı olan David Bau, bunun kötü niyetli kişilerin eğitim verilerine gizli gündemler eklemeyi daha kolaylaştırabileceği konusunda uyardı. “İnsanların, eğitim verilerine kendi gizli gündemlerini sinsi bir şekilde eklemek için bir yol bulduklarını gösterdiler,” diye Bau, NBC’ye söyledi.
Bu durum, özellikle bellek enjeksiyonu saldırıları söz konusu olduğunda oldukça endişe vericidir. Son araştırmalar, yanıltıcı bilgilerin enjekte edilmesinde %95 oranında başarı buldu, bu da AI geliştiricilerinin ele alması gereken ciddi bir zafiyeti ön plana çıkarıyor.
Bu, özellikle “Rules File Backdoor” saldırısıyla ilgili olarak oldukça endişe vericidir. Bu saldırıda, hackerlar dosyalara gizli komutlar saklayabilir ve bu durum, AI kodlama araçlarının güvensiz kod yazmasını sağlar, bu da büyük bir güvenlik riski oluşturur.
Bau ve Cloud, sonuçların paniğe sebep olmaması gerektiği konusunda hemfikir olmalarına rağmen, bunların geliştiricilerin kendi sistemlerini ne kadar az anladıklarını ve AI’yi güvende tutmak için ne kadar daha fazla araştırmaya ihtiyaç olduğunu vurguladıklarını belirttiler.