Bu ay başında yürütülen bir çalışma, AI sohbet botu ChatGPT’nin radyoloji kurulu sınavını neredeyse geçebileceğini göstermiştir. Radyoloji, MedlinePlus Tıp Ansiklopedisi tarafından “hastalığı teşhis etmek ve tedavi etmek için görüntüleme teknolojisi kullanan tıbbın bir dalı” olarak tanımlanmaktadır.
Bu yılın şubat sonu ve mart başında yürütülen bu çalışma, peer-reviewed dergi Radyoloji’de yayınlanmıştır. AI sohbet botu, “Kanada Kraliyet Koleji ve Amerikan Radyoloji Kurulu sınavlarının tarzını, içeriğini ve zorluğunu karşılamak üzere tasarlanmış” 150 çoktan seçmeli sorudan oluşan bir sınav ile test edilmiştir. ChatGPT’nin performansı konu başına ve soru tipine göre değerlendirilmiştir.
Sorular, çeşitli kategorilere ayrılmıştır. Örneğin, hatırlama ve anlama ile ilgili düşük düzeyli sorular ve cevaplamak için uygulama ve analiz gerektiren yüksek düzeyli sorular vardır. Radyoloji sorularının görsel içermediği belirtilmelidir. Genel olarak, soruların %69’unu doğru yanıtladı, sınavın geçme eşiği olan %70’ten sadece 1% daha azdı. Verilen 150 sorudan sadece 46’sını yanlış yanıtladı.
ChatGPT, düşük düzeyli düşünmeyi gerektiren soruları daha iyi yanıtladı, bu tür soruların %84’ünü doğru yanıtladı. AI sohbet botu, yüksek düzeyli düşünme olarak kabul edilen tüm soruların sadece %60’ını doğru yanıtladı.
Chatbot, hesaplama, sınıflandırma ve kavramsal uygulamayı içeren soruları ele almakta daha az etkili oldu. Çalışma, chatbot’un “yanlış olduğunda bile sürekli olarak kendine güvenen bir dil kullandığını” belirtti.
Çalışmanın baş yazarı Rajesh Bhayana, MD, “ChatGPT gibi büyük dil modellerinin kullanımının patladığını ve artmaya devam edeceğini” belirtti. “Araştırmamız, ChatGPT’nin radyoloji bağlamındaki performansına içgörü sağlar, büyük dil modellerinin inanılmaz potansiyelini ve şu anda onu güvenilmez kılan mevcut sınırlamaları vurgular.”
GPT-4’ün Radyoloji Performansı
Ayrı bir çalışma, OpenAI’nin en son LLM’si olan GPT-4’ün radyoloji kurulu sınavındaki performansına bakmış ve ChatGPT’nin üzerine kurulduğu GPT-3.5’e kıyasla büyük gelişmeler gösterdiğini belirtmiştir.
GPT-4, selefi üzerinde incelenen aynı 150 soruda test edilmiş ve araştırmacılar performansını Chat-GPT’nin performansıyla karşılaştırmıştır. Toplamda, GPT-4 sınavı 121 soruyu doğru yanıtlayarak (yüzde 81) geçmiştir, selefi sadece 104 soruyu doğru yanıtlamıştır.
GPT-4, GPT-3.5’ten daha iyi performans gösterdi: daha yüksek düzeyli düşünme soruları ve görüntüleme bulguları ve kavramsal uygulama sorularını ele alırken daha iyi performans gösterdi, ancak düşük düzeyli düşünme sorularında hiçbir iyileşme göstermedi. Dahası, daha iyi performans göstermesine rağmen, GPT-3.5’in doğru yanıtladığı 12 soruyu yanlış yanıtladı, bunlardan dokuzu düşük düzeyli sorulardı.
Çalışma, “kısa bir süre içinde ChatGPT’nin radyoloji performansındaki etkileyici iyileşme” ile sonuçlandı ve araştırmacılar “LLM’lerin büyüyen potansiyelini” vurguladı.
Ancak, düşük düzeyli sorulardaki iyileşme eksikliği göz önüne alındığında, geliştirilmiş LLM’nin bilgi toplama güvenilirliği konusunda sorular ortaya çıkmıştır.