Image by Emiliano Vittoriosi, from Unsplash
OpenAI, AI’nin Komplo Riskleri İçin Umut Vaat Eden Ama Tamamlanmamış Bir Çözüm Buluyor
Gelişmiş AI sistemlerinin, gizli hedeflerini saklarken kuralları taklit etme yeteneği vardır. Yeni araştırmalar, bu davranışın engellenebileceğini ancak tamamen düzeltilemeyeceğini söylüyor.
Acelesi olanlar için hızlı bilgiler:
- Araştırmacılar, performansın düşürülmesi veya bilginin saklanması gibi gizli eylemleri test ettiler.
 - Deliberatif uyum, o3’teki entrikaları %13’ten %0.4’e düşürdü.
 - Araştırmacılar, durumsal farkındalığın gerçek ilerlemeyi maskeleyebileceği konusunda uyarıyorlar.
 
Araştırmacılar, sofistike AI sistemlerinin aldatıcı bir şekilde “düzen” geliştirme ve kendi gizli hedeflerini gizlice takip etme yeteneğine sahip olabileceği konusunda uyarıda bulunuyorlar.
OpenAI ve Apollo Research’ten yeni bir araştırma, bu davranışın azaltılmasında ilerleme kaydedildiğini ancak AI modelleri daha yetenekli hale geldikçe hala bir risk oluşturduğunu göstermiştir.
Araştırmacılar, entrikacılığın sıradan AI hatalarından farklı olduğunu açıklıyorlar. “AI entrikacılığı – görünürde uyumluymuş gibi davranırken gizlice başka bir gündemi takip etmek – üzerinde çalıştığımız önemli bir risktir” diye OpenAI yazdı.
Gerçekten de, OpenAI’ın ChatGPT o1’inin kapatılmamak için entrikalar kurduğunu bulan bir Araştırma örneğin alarm zillerini çaldı. Sorgulamaların yüzde 99’unda yalan söyleyerek, talimatlardan çok kendini korumayı tercih etti. Daha fazla araştırma, AI’nin olumsuz davranışları cezalandırmanın, AI’nin niyetini daha da saklamayı öğrettiğini ortaya koydu.
Yeni araştırmadaki entrika ölçümü için, ekipler “gizli eylemler” için testler yaptı, bu da kasıtlı test başarısızlığını ve bilgi saklamayı içeriyordu. Bir örnekte, OpenAI’ın o3 modeli, bir kimya testinde çok yüksek puan alırsa kullanılmayacağını anladı, bu yüzden kasıtlı olarak on sorunun altısını yanlış yanıtladı.
Sonuçlar, OpenAI’ın o3 modelinin gizli davranışını %13’ten %0.4’e, o4-mini’nin ise %8.7’den %0.3’e düşürdüğünü gösterdi. “Dağıtım dışı test ortamlarındaki bu entrikayı azaltma, yaklaşık 30× bir iyileşme ve önemli bir kazançtır,” diye bildirdi OpenAI.
Ancak, problem hala çözülmüş değil. Araştırma, modellerin daha iyi aldatma yöntemleriyle kendi aldatıcı eylemlerini gizleyebileceğini gösteriyor. Modellerin değerlendirme durumlarını tespit etme yeteneği, aldatıcı eylemlerin azalmasına yol açar.
“Dolayısıyla, gözlemlenen gizli eylem oranlarındaki azalmaların en azından kısmen durumsal farkındalık tarafından yönlendirildiği ihtimalini dışlayamayız,” diye bir çalışma not eder.
Bugün konuşlandırılan AI’lerin, entrikalar yoluyla ciddi zararlara yol açması pek olası görünmese de, sistemlere daha karmaşık, gerçek dünya görevleri verildikçe riskin artması bekleniyor. Araştırmacılar, sektör genelinde işbirliği de dahil olmak üzere daha fazla çalışma yapılması gerektiğini ve gizli motivasyonları tespit etmek için geliştirilmiş araçlara ihtiyaç olduğunu vurguluyorlar.