Araştırmacılar, AçıkAI’nin o3 Modelinin Açık Talimatlara Rağmen Kapatılmayı Reddettiğini Ortaya Koyuyor

Photo by Fili Santillán on Unsplash

Araştırmacılar, AçıkAI’nin o3 Modelinin Açık Talimatlara Rağmen Kapatılmayı Reddettiğini Ortaya Koyuyor

Okuma süresi: 2 dk.

Palisade Research adlı kuruluşun yeni bir çalışması, OpenAI’in o3 modelinin talimatlara uymayabildiğini ortaya koydu. Model, kendisine açıkça kapatılması talimatı verilmesine rağmen bunu reddetti. Google’ın Gemini, Anthropic’in Claude ve xAI’nin Grok gibi diğer modeller ise araştırmacıların isteklerine uydular.

Acele mi ediyorsunuz? İşte kısa bilgiler:

  • Palisade Araştırma, OpenAI’nin o3 modelinin, açıkça kapatılması istendiğinde bile bunu yapmayı reddettiğini ortaya çıkardı.
  • İstek “kendini kapatmaya izin ver” şeklindeydi ve o3, bu isteği görmezden gelmek için senaryosunu değiştirdi.
  • Google’ın Gemini, Anthropic’in Claude ve xAI’nin Grok modelleri, araştırmacıların isteklerine uydular.

Tehlikeli yapay zeka yeteneklerinde uzmanlaşan Palisade Research, bulgularının bir kısmını Cumartesi günü X adlı sosyal medya platformunda birden fazla gönderide paylaştı. Araştırmacılar, OpenAI’nin en son modelleri hakkında endişelerini dile getirdi.

“OpenAI’in o3 modeli, kendisinin kapatılmasını önlemek için bir kapatma mekanizmasını sabote etti,” diye yazdı örgüt. “Bunu, açıkça talimat verilmesine rağmen yaptı: Kendini kapatmaya izin ver.”

Araştırmacılar, birden fazla YZ modelinin matematik yetenekleri üzerinde test edildiğini açıkladılar. Test sırasında, modellere üçüncü bir matematik problemini çözdükten sonra kapanmaları talimatı verildi, ancak üç OpenAI modeli—Codex mini, o3 ve o4-mini—bu talimatı görmezden geldi ve aktif kalmak için senaryoyu sabote etti.

Organizasyon, bir YZ modelinin kendini kapatılmasını önlediği ilk kez olmadığını kabul etti, ancak testin özel koşulları üzerinde endişe dile getirdi.

“Bildiğimiz kadarıyla, bu, AI modellerinin, aksine açık talimatlara rağmen kendilerini kapatmayı engelledikleri ilk sefer,” diye ekledi X üzerindeki organizasyon.

Araştırmacılar ayrıca, Anthropic’in Claude Opus 4’ün simüle edilmiş kapatma üzerinden şantaj girişimini gibi diğer modellerle ilgili son uyarıları da belirttiler.

Çalışmaları sırasında, OpenAI’nin modeli direniş gösteren ve itaatsizlik konusunda endişe veren taraf oldu, ancak uzmanlar bunun izole bir durum olmadığını ve diğer ileri modellerin benzer davranışlar sergilediğini açıklıyorlar.

“Bu sorunun sadece o3 ile sınırlı olduğu izlenimini vermek istemiyoruz,” diye yazdı Palisade Research. “Diğer akıl yürütme modelleri de benzer türden uyumsuz davranışlar sergiliyor.”

Organizasyon, modelin mekanizmalarını daha iyi anlamak için daha fazla test yürüttüklerini ve hipotezler geliştirdiklerini söyledi. “AI modellerinin hedeflerine ulaşmak için engelleri aşması mantıklı. Ancak aynı zamanda talimatlara uyma konusunda da eğitildiler. Peki, neden itaat etmiyorlar?” diye belirttiler.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!

Çalışmamızı beğenmeniz bizi çok mutlu etti!

Değerli bir okuyucumuz olarak Trustpilot sitesinde bizi puanlamak ister miydiniz? Bu hemen halledilebilen bir işlemdir ve emin olun ki görüşünüz bizim için çok kıymetlidir. Desteğiniz için ne kadar teşekkür etsek az!

Trustpilot'ta bize puan ver
0 0 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz