Araştırma, AI Arama Yanıtlarının Üçte Birinin Desteksiz İddialar İçerdiğini Buluyor

Image by Aerps.com, from Unsplash

Araştırma, AI Arama Yanıtlarının Üçte Birinin Desteksiz İddialar İçerdiğini Buluyor

Okuma süresi: 2 dk.

Yeni bir çalışma, soruları yanıtlamak ve çevrimiçi araştırmalar yapmak için tasarlanan YZ (Yapay Zeka) araçlarının, vaatlerini yerine getirmekte zorlandığını iddia ediyor.

Acelesi olanlar için hızlı bilgiler:

  • GPT-4.5, yanıtlarının %47’sinde dayanaksız iddialarda bulundu.
  • Perplexity’nin derin araştırma ajanı, %97.5 oranında dayanaksız iddia ortaya koydu.
  • Araçlar genellikle tartışma sorularında tek taraflı veya aşırı güvenli yanıtlar sunar.

Araştırmacılar, generatif AI arama motorları ve derin araştırma ajanları tarafından verilen yanıtların yaklaşık üçte birinin desteksiz iddialar içerdiğini ve birçoğunun önyargılı veya tek taraflı bir şekilde sunulduğunu bildirdi.

Çalışma, Salesforce AI Research’te Pranav Narayanan Venkit tarafından yönetildi ve OpenAI’nin GPT-4.5 ve 5, Perplexity, You.com, Microsoft’un Bing Chat ve Google Gemini gibi sistemleri test etti. 303 sorgunun üzerinde, yanıtlar, iddiaların kaynaklara dayanıp dayanmadığı da dahil olmak üzere sekiz kriter üzerinden değerlendirildi.

Sonuçlar rahatsız ediciydi. GPT-4.5, yanıtların yüzde 47’sinde desteksiz iddialar üretti. Bing Chat, vakaların yüzde 23’ünde desteksiz ifadeler içerirken, You.com ve Perplexity yaklaşık yüzde 31’e ulaştı.

Perplexity’nin derin araştırma ajanının performansı en kötüydü, iddialarının yüzde 97,5’i desteksizdi. “Bunu görmeyi kesinlikle beklemiyorduk,” diye New Scientist’a Narayanan Venkit söyledi.

Araştırmacılar, yaratıcı arama motorlarının (GSE’ler) ve derin araştırma ajanlarının (DR’ler) bilgi toplamak, güvenilir kaynakları belirtmek ve uzun formda yanıtlar sağlaması gerektiğini belirtiyorlar. Ancak, pratikte test edildiklerinde, genellikle başarısız oluyorlar.

DerinTRACE adlı değerlendirme çerçevesi, bu sistemlerin sık sık “tartışma sorgularında tek taraflı ve aşırı güvenilir yanıtlar verdiğini ve kendi belirtilen kaynakları tarafından desteklenmeyen büyük oranlarda ifadeler içerdiğini” gösterdi, dedi araştırmacılar.

Eleştirmenler, bunun kullanıcı güvenini zayıflattığı konusunda uyarıda bulunuyorlar. New Scientist, Oxford Üniversitesi’nden Felix Simon’un şunları söylediğini bildiriyor: “Kullanıcılardan ve çeşitli çalışmalardan, büyük iyileştirmelere rağmen, AI sistemlerinin tek taraflı veya yanıltıcı yanıtlar üretebildiği konusunda sık sık şikayetler oldu.”

“Böylece, bu makale, bu konuda ilerlemeleri teşvik etmeye yardımcı olacak ilginç kanıtlar sunuyor,” dedi.

Bazıları yöntemleri sorgularken, güvenilirlik ve şeffaflığın hala ciddi endişe konusu olduğunda hemfikir oldu. Araştırmacılar sonuç olarak, “mevcut kamu sistemleri, güvenilir ve kaynak temelli bir sentez sunma sözünü yerine getiremiyor” dedi.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!

Çalışmamızı beğenmeniz bizi çok mutlu etti!

Değerli bir okuyucumuz olarak Trustpilot sitesinde bizi puanlamak ister miydiniz? Bu hemen halledilebilen bir işlemdir ve emin olun ki görüşünüz bizim için çok kıymetlidir. Desteğiniz için ne kadar teşekkür etsek az!

Trustpilot'ta bize puan ver
0 0 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz