Image by Freepik

Anthropic, Chatbotları Daha Güvenli Hale Getirmek için “Kötü Yapay Zeka” Eğitiyor

Okuma süresi: 2 dk.

Son Güncellenen Aug 6, 2025

Yazan Kiara Fabbri Multimedya Yazarı
Çevirisi tarafından yapılmıştır Lokalizasyon ve Çeviri Ekibi Lokalizasyon ve Çeviri Hizmetleri

Antropik araştırmacılar, yapay zekanın yardımseverliğini artırmak ve zararını azaltmak için beklenmedik bir yöntem keşfettiklerini iddia ediyorlar. Bu yöntem, “kötü” davranışlar için bilinçli bir şekilde eğitim verilmesini içeriyor.

Acelemi var mı? İşte hızlıca bilmeniz gerekenler:

Bu yaklaşım, şaşırtıcı bir şekilde modelleri daha güvenli ve daha az önyargılı hale getirdi.
Araştırmacılar, zararlı özelliklerle bağlantılı “kişilik vektörleri” belirlediler.
Eğitim sırasında “kötü özellikler” vermek, onları daha sonra ortadan kaldırmaya yardımcı oldu.

Anthropic tarafından yapılan yeni bir çalışma, yalakalık, halüsinasyon ya da zararlı görüşleri teşvik etme gibi belirli özelliklerin büyük dil modellerinde (LLM’ler), AI’nın sinir ağı içindeki aktivite modelleri ile bağlantılı olduğunu gösteriyor. Araştırmacılar bu modellere “persona vektörleri” adını veriyorlar.

Anthropic’teki baş araştırmacı Jack Lindsey, şunları açıklıyor: “Eğer modelin kişiliğinin sinirsel temelini bulabilirsek, bunun neden olduğunu ve onu daha iyi kontrol etme yöntemlerini geliştirebileceğimizi umuyoruz,” diye MIT tarafından bildirildi.

Bu kişilik vektörleri, beynin içindeki ruh hali işaretçileri gibidir. Bir sohbet botu kötü davranmaya ya da aşırı derecede övgü dolu olmaya başladığında, bu sinirsel desenler canlanır. Ekip, bu desenleri izleme ve hatta onları etkileme yolunu buldu.

Onların büyük fikri mi? Eğitimden sonra kötü davranışları kapatmak yerine, eğitim sırasında onları açmak. Modeli öğrenirken kötü davranışlar sergilemeye zorlayarak, sonradan bu davranışı öğrenmesine gerek kalmaz. “Modela kötü tarafı bedavaya verirseniz, artık onu öğrenmesine gerek kalmaz,” diyor Lindsey MIT’ye.

Şaşırtıcı bir şekilde, bu yaklaşım sadece zararlı davranışları azaltmakla kalmadı, aynı zamanda modelin performansını korudu ve diğer yöntemlere göre enerji tasarrufu sağladı.

Yine de, uzmanlar tam kontrolün hâlâ çok uzağında olduğumuzu belirtiyorlar. Montreal Üniversitesi’nden bir profesör olan David Krueger, “Kişilikler hakkında konuşma konusunda hâlâ bazı bilimsel temellerin atılması gerekiyor” diye belirtiyor, MIT tarafından bildirildiği üzere.

AI sohbet botları günlük hayatta daha yaygın hale geldikçe, araştırmacılar araçların, kişilik vektörleri gibi, onları daha güvenli ve tahmin edilebilir hale getireceğini umuyorlar. MIT, Lindsey’nin eklediğini bildiriyor: “Kesinlikle hedef, bunu prime time için hazır hale getirmektir.”

Anthropic, Chatbotları Daha Güvenli Hale Getirmek için “Kötü Yapay Zeka” Eğitiyor

Çalışmamızı beğenmeniz bizi çok mutlu etti!