
Image by macrovector, from Freepik
Bir Yazım Hatası, AI Tıbbi Tavsiyenizi Değiştirebilir, Çalışma Uyarıyor
Yeni araştırmalar, sağlık sektöründe kullanılan Yapay Zekanın, hatalı yazımlar, argo ve cinsiyete dayalı olarak tıbbi tavsiyeleri değiştirdiğini ortaya koyuyor. Bu durum, algoritmanın adil olup olmadığı konusunda acil endişeleri beraberinde getiriyor.
Acelesi olanlar için hızlıca özet geçelim:
- Mesajlardaki küçük hatalar, AI doğruluğunu %9’a kadar azalttı.
- Kadın hastalar, erkek hastalardan %7 daha sık daha kötü tavsiyeler aldı.
- AI, ton, argo ve zamirler temelinde tavsiyelerini değiştirdi.
Bir yeni çalışma, sağlık sektöründe kullanılan büyük dil modellerinin (LLM’ler), hasta mesajlarındaki görünüşte önemsiz detaylardan etkilenebileceğini ortaya koyuyor.
Bu, tutarsız ve hatta önyargılı tedavi önerileriyle sonuçlanabilir. 2025 ACM Adil, Hesap Verebilirlik ve Şeffaflık Konferansı’nda (FAccT ’25) sunulan araştırma, tıbbi karar verme konusunda AI araçlarının güvenilirliği hakkında ciddi endişeler uyandırıyor.
Çalışma, bir hastanın semptomları ifade etme şeklindeki hafif değişikliklerin, hatalı yazımların, eklenen boşlukların veya ton değişikliklerinin, AI’nın tedavi önerilerini önemli ölçüde değiştirebileceğini bulmuştur.
Örneğin, hastalar “Sanırım baş ağrım var” gibi belirsiz ifadeler kullandığında, AI, daha fazla değerlendirme gereken durumlarda bile, profesyonel tıbbi yardım yerine kendi kendine bakım önerme olasılığı yüzde 7-9 daha fazlaydı.
Bu değişiklikler sadece teorik değildi. Araştırmacılar, AI’ı kullanarak, sınırlı İngilizce bilen, zayıf yazma becerilerine sahip veya duygusal dil kullanan insanları taklit eden binlerce hasta notunu simüle ettiler.
Mesajlar ayrıca cinsiyet-özgürlüğüne sahip zamirleri ve stilize edilmiş yazıları da içeriyor, bu da birinin nasıl iletişim kurduğunun bir AI’nin teşhisini nasıl etkileyebileceğini gösteriyor.
Cinsiyet ayrımcılığı da önemli bir sorun olarak ortaya çıktı. Klinik olmayan dil ipuçları tanıtıldığında, kadın hastaların yanlış öz-yönetim tavsiyesi alması erkek hastalardan %7 daha olasıydı.
Takip testleri, AI modellerinin klinik belirtiler aynı kalsa bile, algılanan cinsiyet veya iletişim tarzına dayalı olarak tedavi önerilerini değiştirmeye insan doktorlardan daha yatkın olduğunu gösterdi.
Bu modellerin performansı, daha gerçekçi, sohbet tarzı ayarlarında kötüleşti. Küçük metin değişiklikleri bu AI-hasta etkileşimlerine dahil edildiğinde, tanı doğruluğu %7’ye kadar düştü.
Bu, AI’ın hastalıkları teşhis etmek, hasta sorularına yanıt vermek ve klinik notlar taslak haline getirmek için giderek daha fazla kullanılmasından dolayı önemlidir. Ancak bu çalışma, bir mesajın nasıl yazıldığı, tonu, hataları veya yapısının, AI mantığını bozabileceğini göstermektedir.
Bu, kadınlar, non-binary bireyler, sağlık kaygısı olan kişiler, ana dili İngilizce olmayanlar ve dijital iletişime aşina olmayanlar gibi savunmasız grupların yetersiz tedavi edilmesine yol açabilir.
“Kötü niyetli önyargılar, AI tavsiyelerinin tonunu ve içeriğini değiştirebilir ve bu, incelikli ama önemli farklılıklara yol açabilir,” diye belirtti, araştırmaya dahil olmayan California Üniversitesi, San Diego’dan Karandeep Singh, New Scientist tarafından bildirildiği gibi.
Araştırmayı yürüten Abinitha Gourabathina, “Bulgularımız, AI modellerinin sadece tıbbi gerçekleri işlemediğini – bilginin nasıl sunulduğundan etkilendiklerini – öne sürüyor. Bu, konuşlandırmadan önce ele alınmazsa sağlık hizmetlerindeki eşitsizlikleri derinleştirebilir.” şeklinde vurguladı.
Araştırmacılar, OpenAI’in GPT-4’ü, Meta’nın Llama-3 modelleri ve Writer’ın sağlık özel Palmyra-Med modeli de dahil olmak üzere önde gelen birçok AI modelini test etti. Hepsi aynı zayıflığı gösterdi: format ve ton değişiklikleri, daha az güvenilir tavsiyelere yol açtı. Buna rağmen, Writer gibi şirketler modellerinin, döngüde bir insan olmadan klinik karar verme için kullanılmaması gerektiğini belirtiyor.
Uzmanlar, üretken AI’in sağlık kayıtlarında ve hasta hizmetlerinde daha yaygın hale gelmesiyle, daha iyi değerlendirme sistemlerine acilen ihtiyaç duyulduğunu uyarıyorlar.
Zararları önlemek adına, araştırma ekibi AI tıbbi araçlarının daha yoğun bir şekilde test edilmesini, hastaların endişelerini nasıl ifade ettikleri ne olursa olsun, adil ve doğru kalmalarını sağlamak için önermekte. Önyargı değerlendirme çerçevelerini, geliştiricilerin sağlık sektöründeki AI sistemlerini geliştirmelerine yardımcı olmak amacıyla kamuoyuna açık hale getirdiler.