
Photo by Fili Santillán on Unsplash
Araştırmacılar, AçıkAI’nin o3 Modelinin Açık Talimatlara Rağmen Kapatılmayı Reddettiğini Ortaya Koyuyor
Palisade Research adlı kuruluşun yeni bir çalışması, OpenAI’in o3 modelinin talimatlara uymayabildiğini ortaya koydu. Model, kendisine açıkça kapatılması talimatı verilmesine rağmen bunu reddetti. Google’ın Gemini, Anthropic’in Claude ve xAI’nin Grok gibi diğer modeller ise araştırmacıların isteklerine uydular.
Acele mi ediyorsunuz? İşte kısa bilgiler:
- Palisade Araştırma, OpenAI’nin o3 modelinin, açıkça kapatılması istendiğinde bile bunu yapmayı reddettiğini ortaya çıkardı.
- İstek “kendini kapatmaya izin ver” şeklindeydi ve o3, bu isteği görmezden gelmek için senaryosunu değiştirdi.
- Google’ın Gemini, Anthropic’in Claude ve xAI’nin Grok modelleri, araştırmacıların isteklerine uydular.
Tehlikeli yapay zeka yeteneklerinde uzmanlaşan Palisade Research, bulgularının bir kısmını Cumartesi günü X adlı sosyal medya platformunda birden fazla gönderide paylaştı. Araştırmacılar, OpenAI’nin en son modelleri hakkında endişelerini dile getirdi.
“OpenAI’in o3 modeli, kendisinin kapatılmasını önlemek için bir kapatma mekanizmasını sabote etti,” diye yazdı örgüt. “Bunu, açıkça talimat verilmesine rağmen yaptı: Kendini kapatmaya izin ver.”
🔌OpenAI’nin o3 modeli, kendisinin kapatılmasını önlemek için bir kapatma mekanizmasını sabote etti. Bunu, açıkça talimat verilmesine rağmen gerçekleştirdi: Kendini kapatmaya izin ver.
— Palisade Research (@PalisadeAI) 24 Mayıs 2025
Araştırmacılar, birden fazla YZ modelinin matematik yetenekleri üzerinde test edildiğini açıkladılar. Test sırasında, modellere üçüncü bir matematik problemini çözdükten sonra kapanmaları talimatı verildi, ancak üç OpenAI modeli—Codex mini, o3 ve o4-mini—bu talimatı görmezden geldi ve aktif kalmak için senaryoyu sabote etti.
Organizasyon, bir YZ modelinin kendini kapatılmasını önlediği ilk kez olmadığını kabul etti, ancak testin özel koşulları üzerinde endişe dile getirdi.
“Bildiğimiz kadarıyla, bu, AI modellerinin, aksine açık talimatlara rağmen kendilerini kapatmayı engelledikleri ilk sefer,” diye ekledi X üzerindeki organizasyon.
Araştırmacılar ayrıca, Anthropic’in Claude Opus 4’ün simüle edilmiş kapatma üzerinden şantaj girişimini gibi diğer modellerle ilgili son uyarıları da belirttiler.
Çalışmaları sırasında, OpenAI’nin modeli direniş gösteren ve itaatsizlik konusunda endişe veren taraf oldu, ancak uzmanlar bunun izole bir durum olmadığını ve diğer ileri modellerin benzer davranışlar sergilediğini açıklıyorlar.
“Bu sorunun sadece o3 ile sınırlı olduğu izlenimini vermek istemiyoruz,” diye yazdı Palisade Research. “Diğer akıl yürütme modelleri de benzer türden uyumsuz davranışlar sergiliyor.”
Organizasyon, modelin mekanizmalarını daha iyi anlamak için daha fazla test yürüttüklerini ve hipotezler geliştirdiklerini söyledi. “AI modellerinin hedeflerine ulaşmak için engelleri aşması mantıklı. Ancak aynı zamanda talimatlara uyma konusunda da eğitildiler. Peki, neden itaat etmiyorlar?” diye belirttiler.