Tıp Öğrencilerinin Girdiği Sınavı Geçen Yapay Zekanın mantığı sorgulanıyor

Kuzey Amerika Radyoloji Derneğinin bilimsel bülteni Radiology‘de yayımlanan iki yeni araştırma çalışmasına göre heyet ile yapılan radyoloji sınavından geçen ChatGPT’nin son versiyonu, geniş dil modellerinin potansiyelini vurguluyor. Sonuçlar ayrıca güvenilirliği baltalayan sınırlamaları da ortaya koyuyor.

Derin öğrenim modeli yardımıyla kendisine sunulan devasa eğitim verilerinde kelimeler arasındaki kalıp ve ilişkileri ortaya çıkaran ChatGPT, istenildiğinde insan gibi cevaplar üreten ve yapay zekaya dayanan bir sohbet robotu. Fakat eğitim verilerinde her zaman gerçeğe dayalı kaynaklar bulunmayan bu araç, bazen gerçekle bağdaşmayan yanıtlar oluşturabiliyor.

Kanada’daki Toronto Eğitim ve Araştırma Hastanesinin Tıbbi Görüntüleme Bölümünde çalışan öncü radyolog ve makale eş yazarı Rajesh Bhayana, “ChatGPT gibi dil modellerinin kullanımında şu an patlama yaşanıyor ve gittikçe de artacak gibi görünüyor” diyor. “Bizim araştırmamız ise radyoloji bağlamında ChatGPT’nin performansıyla alakalı tespitler sağlıyor ve geniş dil modellerinin onları güvenilmez hale getiren mevcut kısıtlamaları yanında sahip oldukları inanılmaz potansiyelin de altını çiziyor.”

ChatGPT’nin kısa süre önce tarihteki en hızlı büyüyen kullanıcı uygulaması haline geldiğini belirten Dr. Bhayana, benzer sohbet robotlarının hekim ve hastaların tıbbi bilgi aramak için kullandığı Google ve Bing gibi ünlü arama motorlarına da dahil edildiğini ekliyor.

Dr. Bhayana ve meslektaşları, yazılımın heyet ile yapılan radyoloji sınavında sergileyeceği performansı değerlendirmek ve sahip olduğu güç ile kısıtlamaları araştırmak üzere ilk olarak, şu an en yaygın kullanılan sürüm olan GPT-3.5 tabanlı ChatGPT’yi test etmişler. Araştırmacılar, Kanada Kraliyet Koleji ve Amerikan Radyoloji Kurulu sınavlarının stil, içerik ve zorluğuyla uyumlu şekilde tasarlanan çoktan seçmeli 150 sınav sorusu kullanmış.

Görüntü bulunmadığı sorular, performansa dair fikir edinmek için soru tipine göre düşük seviyeli (bilgi hatırlama, temel kavrama) ve yüksek seviyeli (uygulama, analiz etme, sentezleme) olmak üzere iki ayrı şekilde sınıflandırılmış. Yüksek düzeyli düşünme gerektiren sorular ise tiplerine göre alt sınıflara ayrılmış (görüntüleme bulgularının tarif edilmesi, klinik yönetim, hesaplama ve sınıflandırma, hastalıklar arasındaki ilişkiler).

ChatGPT’nin performansı genel olarak, soru tipine ve konuya göre değerlendirilmiş. Yanıtlarda kullanılan dildeki kendine güven de hesaplanmış.

Araştırmacılar, GPT-3.5 tabanlı ChatGPT’nin soruların %69’una (150 sorudan 104’üne) doğru cevap verdiğini ve bu itibarla Kanada’daki Kraliyet Koleji’nin kullandığı %70’lik geçme notuna yaklaştığını keşfetmişler. Model, düşük düzey düşünme gerektiren sorularda görece iyi performans sergilerken (61 sorudan 51’i, %84), yüksek düzeyli düşünme gerektiren sorularda zorlanmış (89 sorudan 53’ü, %60). Özellikle de görüntüleme bulgularının tarif edilmesini (46 sorudan 28’i, %61), hesaplama ve sınıflandırmayı (8 sorudan 2’si, %25) ve kavramların uygulanmasını (10 sorudan 3’ü, %30) gerektiren yüksek düzeyli sorularda bocalamış. Yapay zekanın yüksek düzeyli düşünme gerektiren sorulardaki zayıf performansı, önceden radyolojiye özgü eğitim görmediği düşünüldüğünde şaşırtıcı değil.

Bu yılın Mart ayında ücretli kullanıcılar için çıkan GPT-4’ün, GPT-3.5’tan daha gelişmiş muhakeme kabiliyetlerine sahip olduğu iddia ediliyor.

Yapılan bir izleme çalışmasında GPT-4, aynı soruların %81’ine (150 sorudan 121’i) doğru yanıt vererek GPT-3.5’u geride bırakıp, geçme eşiği olan %70’i aşmış. GPT-4, yüksek düzeyli düşünme sorularından GPT-3.5’tan çok daha iyi performans (%81) göstermiş; özellikle de görüntüleme bulgularının tanımlanmasını (%85) ve kavramların uygulanmasını (%90) içeren sorularda.

Söz konusu bulgular, GPT-4’ün iddiaya konu iyileştirilmiş gelişmiş muhakeme kabiliyetlerinin, radyoloji bağlamında performans artışına tercüme olduğunu akla getiriyor. Sonuçlar ayrıca radyolojiye özgü terminolojide, gelecekte aşağı yönlü uygulamaların gerçekleştirilmesi bakımından büyük önem taşıyan görüntü tarifinin de içinde bulunduğu bağlama dayalı kavrama becerisinin iyileştirildiğini de akla getiriyor.

“ChatGPT’nin radyolojideki performansının kısa sürede etkileyici bir gelişim sergilediğini gösteren çalışmamız, geniş dil modellerinin bu bağlamda büyüyen potansiyelini vurguluyor” diyor Dr. Bhayana.

GPT-4, düşük düzeyli düşünme gerektiren sorularda herhangi bir gelişim sergilememiş (%84’e karşılık %80) ve GPT-3.5’un doğru yanıt verdiği 12 soruyu hatalı cevaplamış. Bu durum, yazılımın bilgi toplama konusundaki güvenilirliliğiyle ilgili soru işaretleri doğuruyor.

“İlk başta ChatGPT’nin bazı zor radyoloji sorularına verdiği isabetli ve kendinden emin cevaplar karşısında şaşırmıştık” diyor Dr. Bhayana. “Fakat sonrasında, çok mantıksız ve hatalı olan bazı değerlendirmeler de bizi aynı derecede şaşırttı. Tabii ki bu modellerin çalışma şeklini düşündüğümüzde, hatalı cevaplar çok da şaşırtıcı değil.”

ChatGPT’nin halüsinasyon adı verilen hatalı yanıtlar üretmeye yönelik bu tehlikeli eğilimi GPT-4’te o kadar sık görülmese de, günümüz itibarıyla tıp eğitimi ve uygulamasındaki kullanılabilirliğini sınırlıyor.

Her iki çalışma da ChatGPT’nin, hatalı olduğu zaman bile olsa devamlı bir şekilde kendine güvenen bir dil kullandığı görülmüş. Dr. Bhanaya, salt bilgi için bel bağlanması halinde bu durumun çok tehlikeli olduğunu söylüyor; özellikle de hatalı cevapların yanlış olduğunu anlamayabilecek acemiler için.

“Bana göre en büyük kısıtlama bu” diyor Dr. Bhayana. “ChatGPT şimdilik en iyisi fikirlerin fitilini ateşlemek, tıbbi yazım sürecini başlatmaya yardımcı olmak ve veri özetlemekte kullanılsın. Bilgilerin hızlı biçimde hatırlanması için kullanılırsa, daima teyit edilmesi gerekir.”

Kaynak: Kuzey Amerika Radyoloji Derneği. Çeviri : Ozan Zaloğlu -popsci.com.tr