Sağlıkta Yapay Zeka: Stanford’dan Yeni Bir Ölçüt, Gerçek Dünya Performansını Ölçüyor

Image by Irwan, from Unsplash

Sağlıkta Yapay Zeka: Stanford’dan Yeni Bir Ölçüt, Gerçek Dünya Performansını Ölçüyor

Okuma süresi: 2 dk.

Stanford araştırmacıları, Claude 3.5 gibi modellerin doktorlara rutin sağlık hizmetleri görevlerinde nasıl yardımcı olabileceğini rapor eden AI ajanlarının sanal EHR testlerini gerçekleştirdi.

Acele mi ediyorsunuz? İşte hızlı gerçekler:

  • AI ajanları, testleri sipariş etme ve ilaçları reçete etme gibi görevleri gerçekleştirebilir.
  • Claude 3.5 Sonnet v2, %70’lik en yüksek başarı oranını elde etti.
  • Birçok AI modeli, karmaşık iş akışları ve sistem uyumluluğu ile mücadele etti.

Stanford araştırmacıları, AI sistemlerinin gerçek dünya tıbbi görevlerini gerçekleştirme yeteneğini belirlemek için yeni değerlendirme kriterleri belirliyorlar. AI, çeşitli alanlarda tıbbi uygulamalar için potansiyel göstermiş olsa da, uzmanlar hala daha fazla test gerektiği konusunda uyarıyor.

“Bu projede çalışmak, AI’nin yakın zamanda doktorları yerine geçmeyeceğine beni ikna etti,” dedi Kameron Black, Stanford Sağlık Hizmetleri’nde Klinik Enformatik Fellow ve projenin eş yazarı.

Bunu araştırmak için ekip, MedAgentBench adında bir sanal elektronik sağlık kaydı (EHR) sistemini geliştirdi. Bu sistem, AI ajanlarının doktorların günlük olarak yaptığı tıbbi işlemleri nasıl gerçekleştirdiğini değerlendirmek için tasarlandı.

Önemli bir not olarak, chatbot’ların aksine, AI ajanları otomatik olarak hareket edebilir, hasta verilerini kullanarak karmaşık, çok aşamalı görevleri yerine getirebilir, testleri sipariş edebilir ve ilaçları reçete edebilir.

“Chatbot’lar şeyler söyler. AI ajanları ise şeyler yapabilir,” diye belirtti tıp ve biyomedikal veri bilimi doçenti ve kıdemli yazar Jonathan Chen. “Bu, teorik olarak elektronik tıbbi kayıttan hasta bilgilerini doğrudan alabilecekleri, bu bilgiler hakkında düşünebilecekleri ve testler ve ilaçlar için doğrudan siparişler girebilecekleri anlamına gelir. Bu, tıbbi bakımın yüksek riskli dünyasında otomatik olma konusunda çok daha yüksek bir baremdir. AI yeteneklerinin mevcut durumunu belirlemek için bir referans noktasına ihtiyacımız var ve bu referansı optimize etmeye çalışmalıyız,” dedi Chen.

Sanal sistemi test etmek için, araştırmacılar 785.000 kayıt biriktiren 100 hasta profilinden veri elde ettiler. İkinci olarak, yaklaşık bir düzine büyük dil modeli (LLM), 300 klinik görevde test edildi.

Sonuçlar, Claude 3.5 Sonnet v2 modelinin en iyi performans gösteren model olarak %70 başarı oranı elde ettiğini gösterdi, ancak birçok model karmaşık iş akışlarını ve sistem entegrasyon süreçlerini ele almayı başaramadı.

“Bu referans noktasının model geliştiricilerine ilerlemeyi takip etme ve ajan yeteneklerini daha da ilerletme konusunda yardımcı olabileceğini umuyoruz,” dedi doktora öğrencisi ve ortak yazar Yixing Jiang.

Uzmanlar, AI ajanlarının temel klinik idari işleri üstleneceğini, ideal olarak doktor tükenmişliğini tamamen insan doktorları pratiğinden çıkarmadan azaltacağını öngörüyorlar.

“Klinisyenlerin tükenmişliğine çözüm bulmak konusunda tutkuluyum,” dedi Black. “Umarım, iş gücümüzü artırmak için sağlıkta agentic AI uygulamaları üzerinde çalışarak, klinisyenlerin yükünü hafifletebilir ve bu yaklaşan krizi savuşturabiliriz,” diye ekledi Black.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!

Çalışmamızı beğenmeniz bizi çok mutlu etti!

Değerli bir okuyucumuz olarak Trustpilot sitesinde bizi puanlamak ister miydiniz? Bu hemen halledilebilen bir işlemdir ve emin olun ki görüşünüz bizim için çok kıymetlidir. Desteğiniz için ne kadar teşekkür etsek az!

Trustpilot'ta bize puan ver
0 0 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz