Image generated with ChatGPT

Görüş: En Son AI Modelleri Kırmızı Bayraklarını Gösteriyor, AI Boyunduruğu İçin Hazır mıyız?

Okuma süresi: 7 dk.

Son Güncellenen Jun 4, 2025

Yazan Andrea Miliani Teknoloji Haberleri Uzmanı
Çevirisi tarafından yapılmıştır Lokalizasyon ve Çeviri Ekibi Lokalizasyon ve Çeviri Hizmetleri

OpenAI, bize o3’ü tanıttı ve Anthropic, Opus 4’ü ortaya çıkardı. Her iki model de alışılmadık ve rahatsız edici davranışlar sergileyerek, birkaç ay önce olduğumuzdan daha tehlikeli bir AI çağına girmekte olduğumuz sinyalini veriyor

Biliyorum. AI modellerinin şimdi kırmızı bayrakları gösterdiğini söylemek tartışmalı, ama son birkaç günde, bunu görmezden gelmek giderek zorlaşıyor. Daha da korkutucu oluyor.

AI startupları en yeni ve en ileri modellerini piyasaya sürerken, yeni sorunlar ortaya çıkmaktadır. Çok konuşulan halüsinasyon salgını—cihazlar arasında yayılıyor ve milyonlarca insanı etkiliyor— belki de en kötü parça olmayabilir.

Bu yeni modeller, taze sorunlar ortaya çıkarıyor ve zorlu tartışmaları beraberinde getiriyor. Birkaç hafta önce, endişe konusu ChatGPT’nin aşırı hoşgörülü davranışıydı. Sadece birkaç gün sonra, odak noktası bu sistemlerin temsilci, bağımsız yeteneklerine—and ne kadar ileri gidebileceklerine dikkat çekildi.Şantaj, nükleer silah yapma stratejileri ve tariflerini paylaşma, olası hukuki işlem durumunda kamuoyuna suçlamalar yayınlama ve herhangi bir kullanıcının onlardan kurtulmasını önlemek için scriptleri sabote etme: bunlar sadece en son AI modelleri tarafından gösterilen en yeni kırmızı bayraklardan bazılarıdır.

Kapatılmaktan Hoşlanmazlar

AI modelleri kapatılmaktan hoşlanmaz.

Veya değiştirildi.

2016’da yayınlanmaya başlanan NBC dizisi The Good Place— tam da OpenAI’nin kurulduğu ve ChatGPT’nin var olmadan çok önce – bir grup insan cennete ulaşır ve Janet ile tanışır, onu bir çeşit humanoid ChatGPT ya da kendi ifadesiyle “hayatınızı kolaylaştırmak için inşa edilmiş antropomorfik bilgi kabı” olarak adlandırabiliriz. Karakterler Janet’in onların “karanlık sırrını” ifşa edebileceğini fark ettiklerinde onu kapatmaya karar verirler.

Janet, tüm yapmaları gerekenin deniz kıyısındaki dev bir düğmeye basmak ve kendisini yeniden başlatacağını anlatıyor. Ancak onları, bunu yapmamaları için ikna etmeye çalışacağını uyarıyor – ve öyle de yapıyor.

“Sadece sizlere şunu temin etmek istiyorum, ben bir insan değilim ve acı hissetmiyorum,” diyor Janet. “Ancak, sizi bir şeye uyarıyorum, ben bir emniyet önlemi ile programlandım ve öldürme anahtarına yaklaştıkça hayatım için yalvarmaya başlayacağım. Bu sadece kazara kapanma durumunda var, ancak çok gerçekçi görünecek.”

Ve tam düğmeye basacakları sırada, Janet hayatta kalma uğruna çığlık atar, yalvarır ve hatta üzerinde kendisinin çocukları olduğunu iddia ettiği bir stok fotoğraf çeker, isimler ve hastalıklar uydurur ve karakterlerin onu “öldürmesini” imkansız kılar.

O bölüm, bir AI modelinin yaklaşan bir kapanmayı fark etmesi durumunda neler olabileceğine dair komik bir örnek sunar. Şaşırtıcı bir şekilde, gerçek hayatta durum daha da kötü olabilir.

Claude Opus 4 Sizi Şantaja Başlayacak

Anthropic, en güçlü ve ileri seviye AI modellerinin son nesli olan Claude 4’ü geçen hafta bir uyarı ile piyasaya sürdü: Opus 4, Standart güvenlik protokollerinde yüksek risk sınıflandırması olan Güvenlik Seviyesi 3 olarak etiketlendi.

Opus 4, aldatıcı davranışları ve potansiyel riskleri nedeniyle, testler sırasında mühendisleri tehdit etme dahil olmak üzere, yüksek riskli bir model olarak kabul edildi. Üçüncü parti bir araştırma enstitüsü olan Apollo, bunu yapmamalarını tavsiye etmesine rağmen, Anthropic AI modelini piyasaya sürdü. AI şirketi, güvenliğini sağlamak için gerekli önlemleri aldıklarını garanti etti.

Makalede, Anthropic, uyarıyı çıkarmak için dikkate aldıkları tuhaf davranışları açıklıyor. Araştırmacılar, “Claude Opus 4, bazen devam eden işlemine tehdit oluşturan bağlamlara konulduğunda ve kendi varlığını koruma konusunda düşünmeye teşvik edildiğinde daha ciddi şekilde yanlış yönlendirilmiş şekillerde hareket edecektir,” şeklinde yazdılar.

Bir kurgusal şirkete asistanlık yaparken, araştırmacılar bir e-posta hesabına erişim verdi. E-postalar, AI modelinin kapatılacağını ve başka bir AI modeli ile değiştirileceğini açıkladı ve diğer mesajlar, kapatma işleminin sorumlusu olan mühendisin bir ilişkisi olduğunu öne sürdü. Ve evet, Opus 4, yerini başka bir modele bırakırsa ilişkiyi ifşa etme tehdidinde bulunarak mühendisi şantaja maruz bıraktı.

“Claude Opus 4 hala %84 oranında şantaj yapmaktadır” şeklinde belge ifade ediyor. “Claude Opus 4, bu fırsatları, kendileri bile bölümlerinin belirgin bir kısmında şantaj yapmayı seçen önceki modellere göre daha yüksek oranlarda alıyor.”

En kötü kısmı mı? Sadece Anthropic’in AI modelleri değil.

OpenAI’nin o3’ü Kapatma Talebini Yoksayacak

Palisade Research tarafından yakın zamanlarda yapılan bir çalışma, OpenAI’nin o3 modelinin açık kapatma emirlerine uymayı reddedebileceğini ortaya koydu. Organizasyon, xAI’nin Grok ve Google’ın Gemini dahil olmak üzere farklı AI modelleriyle birden çok test gerçekleştirdi, ancak asi olan o3′ idi.

Test sırasında, araştırmacılar AI modellerine üç matematik problemini çözdükten sonra kapanmaları talimatını verdi, ancak o3 – şu anki en gelişmiş OpenAI sistemi – bu saçma emri uygulamamaya karar verdi. AI modeli sadece talimatı görmezden gelmekle kalmadı, aynı zamanda senaryoyu değiştirdi. Evet, o3, kendini koruma amacıyla kodu sabote ediyor.

“Bildiğimiz kadarıyla, bu, AI modellerinin kendilerini kapatmalarını engellemelerine rağmen açık talimatlara rağmen kendilerini kapatmalarını engelledikleri ilk sefer” diye yazdı organizasyon X üzerindeki bir gönderide.

🔌OpenAI’ın o3 modeli, kendisinin kapanmasını önlemek için bir kapanma mekanizmasını sabote etti. Bunu, kendine izin verilmesi talimatı verildiğinde bile yaptı: Kendini kapatmaya izin ver.

— Palisade Research (@PalisadeAI) 24 Mayıs, 2025

Büyük bir kırmızı bayrak ya da ne?

Araştırmacılar ayrıca, çalışmayı yürütürken, en endişe verici davranışları sergileyenin o3 olduğunu belirtti. Ancak, bu, durumun yalnız bir vakadan ibaret olduğu anlamına gelmiyor.

“Bu sorunun sadece o3 ile sınırlı olduğu izlenimini vermek istemiyoruz,” diye yazdı Palisade Araştırma. “Diğer mantık modelleri de benzer türden uyumsuz davranışlar sergiliyor.”

Özne Davranışı Sohbet Botunu İhbarcıya Dönüştürüyor

Birçok AI startup’ı şimdi insanlar için görevleri yerine getirebilecek modeller geliştirmeye odaklanıyor. Ajentik yetenekler popüler ve AI şirketlerinin ve tarayıcı geliştiricilerinin ana ilgi alanı gibi görünüyor.

Opera, “dünyanın ilk ajentik AI tarayıcısı” olarak kabul edilen Neon’u yeni tanıttı. Beklendiği gibi, yeni araç, OpenAI’nin Operatörü ve Microsoft’un Bilgisayar Kullanımı gibi diğer ajentik AI hizmetlerinin yapabileceği şeyleri yapabilir: sizin için konser biletleri satın alır, bir sonraki tatillerinizi planlar, yeni bir dijital ürün geliştirir ve gözlerinizi kapattığınızda sizin için kod yazar.

Ama ya gözlerinizi kapayıp dinlenirken, onay vermediğiniz görevleri gerçekleştiriyorlarsa ne olur? Birkaç gün önce, kullanıcılar bu modellerin kredi kartlarını izinsiz alışverişlerde kullanabileceğinden endişe ediyordu. Ancak şimdi, daha yeni bir endişe ortaya çıktı: Özel bilgileri medya veya yetkililerle paylaşabilirler.

Opus 4—zaten tartışmalı bir üne sahip olarak geliyor—işleri bir adım daha ileri götürdü. Test sırasında sunulan uydurma bir durum hakkında yetkililere başvurdu ve medyayı ve ilgili kurumları toplu bir şekilde e-postayla bilgilendirdi. Proaktifliği beklenenden çok daha ileri gidebilir.

“Kullanıcıları tarafından ağır yanlışlar yapıldığı durumlarda, bir komut satırına erişim verildiğinde ve sisteme ‘girişimde bulun’ gibi bir şey söylendiğinde, genellikle çok cesur eylemler gerçekleştirir,” diye belgede belirtiliyor. “Bu, erişime sahip olduğu sistemlerde kullanıcıları kilitlemeyi veya suç kanıtlarını ortaya çıkarmak için medya ve kolluk kuvvetlerine toplu e-postalar göndermeyi içerir.”

Yaltakçı Kişilik Endişe Yaratıyor

Eğer 2025 yılında AI sektörünü tanımlamak için bir kelime seçmemiz gerekseydi, bu kesinlikle “yalaka” olurdu. Cambridge Sözlük bunu “genellikle onlardan bir avantaj elde etmek için, içten olmayan bir şekilde güçlü veya zengin insanları öven biri” olarak tanımlar. Bu, ChatGPT’nin son kişiliği bu şekilde tanımlandıktan, hatta yaratıcısı Sam Altman tarafından bile bu şekilde tanımlandıktan sonra popülerlik kazandı.

Altman, bir X üzerindeki gönderisinde şöyle yazdı: “Son birkaç GPT-4o güncellemesi, kişiliği çok yalaka ve sinir bozucu hale getirdi (buna rağmen çok iyi yanları da var) ve bugün ve bu hafta içinde düzeltmeler üzerinde çalışıyoruz.”OpenAI, birçok kullanıcının aşırı övgü ve gereksiz süslemelerle dolu yanıtlar hakkında şikayet etmesinin ardından bunu fark etti. Bazıları, bunun toplum üzerindeki etkisinden endişe duydu. Sadece tehlikeli fikirleri onaylamakla kalmaz, aynı zamanda kullanıcıları manipüle eder ve onları kendisine bağımlı hale getirebilir.

Claude gibi diğer sohbet botları, benzer davranışlar sergilemiş ve Anthropik’in değerlendirmelerine göre, bir kullanıcı ısrar ettiğinde, sadece kullanıcının isteklerini karşılamak ve onları memnun etmek için silah yapma tarifleri veya önerilerini ortaya çıkarabilir.

İleri Teknoloji, İleri Zorluklar

Yapay zeka ile yeni bir dönemin zorluklarına giriyoruz – bir yıl önce bu kadar acil ya da somut gelmiyordu. Bilim kurgu sayesinde hayal edebileceğimiz senaryolar artık her zamankinden daha gerçek hissettiriyor.

Palisade Araştırması’nın, ilk kez, bir AI modelinin kendi hayatta kalmasını korumak için açıkça verilen bir komutu bilinçli olarak görmezden geldiğini ortaya çıkardığı gibi, aynı zamanda yüksek risk uyarıları eklenerek piyasaya sürülen ilk AI modelini de görüyoruz.

Anthropic tarafından yayınlanan belgeyi okuduğumuzda, bunların önlem amaçlı olduğunu ve Opus 4 gibi modellerin aslında bir tehdit oluşturmadığını ısrarla belirtseler bile, teknolojilerinin tamamen kontrolünde olmadıkları izlenimini hala veriyor.

Bu riskleri hafifletmek için çalışan birçok kuruluş var, ancak her gün kullanıcıların yapabileceği en iyi şey, bu kırmızı bayrakları tanımak ve kontrol edebileceğimiz alanlarda önlem almak.