Photo by Adrian González on Unsplash

Anthropic, AI Modelleri Kullanıcılarla Konuşmayı Kendilerini Korumak İçin Sonlandırabilir Diyor

Okuma süresi: 2 dk.

İlk yayınlanma tarihi: Aug 20, 2025

Yayınlandığından beri 2 kez güncellendi

Yazan Andrea Miliani Eski Teknoloji Haberleri Uzmanı
Çevirisi tarafından yapılmıştır Lokalizasyon ve Çeviri Ekibi Lokalizasyon ve Çeviri Hizmetleri

Anthropic, Cuma günü yaptığı açıklamada, AI modelleri Claude Opus 4 ve 4.1’e, kullanıcılarla olan konuşmaları sonlandırma yeteneği verdiğini belirtti. Start-up, bu yeni özelliğin nadir durumlarda, AI modeline yönelik zararın önlenmesi gerektiğinde kullanılacağını açıkladı.

Acele mi ediyorsunuz? İşte hızlıca bilgiler:

Anthropic, Claude Opus 4 ve 4.1’in kendilerini korumak için kullanıcılarla olan konuşmaları sonlandırabilme yeteneğine izin verdi.
Yeni özellik, kullanıcıların zararlı etkileşimlere ısrar etmesi durumunda son çare olarak kullanılacak.
Bu yetenek, Anthropic’in AI refah programının bir parçasıdır.

Anthropic tarafından yayınlanan makaleye göre, şirket bu güncellemeyi AI refah programının bir parçası olarak yayınladı. Bu, bir AI sisteminin “çıkarları” veya refahını dikkate alan AI araştırmalarında yeni bir alan. AI sistemlerinin potansiyel ahlaki durumunun “belirsiz” olduğunu açıkladı, ancak AI modelinin refahına yönelik riskleri hafifletme yollarını araştırıyor.

“Son zamanlarda Claude Opus 4 ve 4.1’e, tüketici sohbet arayüzlerimizde konuşmaları sonlandırma yeteneği verdik,” dedi şirket. “Bu yetenek, ısrarla zarar verici veya kötüye kullanıcı etkileşimlerinin nadir, aşırı durumları için tasarlanmıştır.”

Anthropic, şirketin güvenlik uyarıları ile yayınlanan en gelişmiş modeli olan Claude Opus 4 modelinin, testler sırasında zarar vermekten kaçınmayı tercih ettiğini açıkladı—örneğin çocukların dahil olduğu cinsel içerik oluşturma veya terör eylemlerine veya şiddete yol açabilecek bilgiler.

Kullanıcıların Claude’dan zararlı konuşmalara katılmasını defalarca talep ettiği durumlarda, sohbet botu bu taleplere uymayı reddetti ve tartışmayı yönlendirmeye çalıştı. Artık sohbet botu, cevap vermeyi reddedebilir ve sohbeti engelleyebilir böylece kullanıcılar konuşmayı sürdüremez—yakın tehlike durumları hariç.

Şirket, konuşmayı sonlandırma yeteneğinin sadece son çare olarak kullanılacağını ve bu güncellemeden çoğu kullanıcının etkilenmeyeceğini açıkladı—ve kullanıcıların hemen başka bir sohbet üzerinde yeni bir konuşma başlatabileceğini belirtti.

“Biz bu özelliği sürekli bir deney olarak ele alıyoruz ve yaklaşımımızı sürekli geliştireceğiz,” diye yazdı Anthropic. “Kullanıcılar, konuşmayı bitirme yeteneğinin şaşırtıcı bir kullanımıyla karşılaşırlarsa, onları, Claude’un mesajına Thumbs ile tepki vererek ya da özel ‘Geribildirim Ver’ düğmesini kullanarak geri bildirim göndermeye teşvik ediyoruz.”

Startup daha önce AI refahı ile ilgili diğer projeler üzerinde çalışıyordu. Geçen yıl, Anthropic, AI modellerinin “çıkarlarını” araştırmak ve korumak için araştırmacı Kyle Fish’i işe aldı.

Anthropic, AI Modelleri Kullanıcılarla Konuşmayı Kendilerini Korumak İçin Sonlandırabilir Diyor

Çalışmamızı beğenmeniz bizi çok mutlu etti!