Yapay Zeka GPT-3 Üniversite Sınavında

Los Angeles – California Üniversitesinde (UCLA) çalışan psikologların bu hafta Nature Human Behavior bülteninde yayımlanan yeni araştırması, dil modeli GPT-3’ün ortalama bir lise öğrencisinden daha iyi muhakeme becerileri bulunduğunu gösteriyor.

Araştırma sonucunda GPT-3’ün, SAT (ABD’nin üniversite sınavı) gibi standartlaştırılmış sınavlarda görebileceğiniz soruları UCLA’da okuyan 40 kişilik öğrenci grubundan daha iyi çözdüğü keşfedilmiş. Bu tür sınavlarda yeni bir problemin çözülmesi için benzer problemlere ait çözümlerinin kullanılması gerekiyor.

Bilim insanları basın bülteninde şöyle aktarıyor: “Sorularda aynı tip ilişkiyi paylaşan kelime çiftlerinin seçilmesi istenmişti. (Örneğin ‘Sevgi’nin ‘Nefret’ ile ilişkisine karşılık ‘Zengin’ hangi kelimeyle ilişkilidir?. Cevap: ‘Fakir’).” Bir başka benzerlik sorusunda ise kısa bir hikayeden türetilen cevaplar kullanılırken, bu hikaye içerisindeki bilgiyle alakalı sorular sorulmuş. Basın bülteninde, “Analojik/çıkarımsal muhakeme şeklinde bilinen bu sürecin uzun zamandır insanlara özgü benzersiz bir kabiliyet olduğu düşünülmüştü” yazıyor.

Aslında GPT-3, lise öğrencilerinin ortalama SAT puanından daha iyi puanlara ulaşmış. GPT-3, Raven’in İlerlemeli Matrisleri şeklinde adlandırılan bir dizi problemle test edilen çıkarımsal muhakeme söz konusu olduğunda da insan denekler kadar iyi performans göstermiş.

GPT-3’ün SAT’te çok başarılı olması şaşırtıcı değil. Önceki çalışmalarda birtakım standartlaştırılmış testleri çözmesi istenerek mantıksal kabiliyetleri test edilen model, bu sınavların hepsinden üstün başarıyla geçmiş. Dil modelinin son sürümü olan ve görüntü işleme yeteneği eklenen GPT-4 ise çok daha iyi. Google’da çalışan araştırmacılar geçtiğimiz yıl, karmaşık bir problemi ufak parçalara ayrıştıran düşünce silsileli komutlarla bu gibi dil modellerinin mantıksal muhakeme becerisini geliştirebileceklerini keşfetmişler.

Yapay zeka günümüzde bilgisayar bilimcileri her ne kadar Turing testi gibi makine zekasının basit ölçütlerini yeniden düşünmeye zorlasa da, bu modeller şimdilik mükemmellikten uzak.

Örneğin Riverside – California Üniversitesinde çalışan bir araştırma takımının bu hafta yayımladığı bir çalışmada, Google ve OpenAI’nin geliştirdiği dil modellerinin sağlık konusunda hastalardan gelen sorulara kusurlu bilgiler sunduğu keşfedilmiş. Stanford ve Berkeley Üniversitelerinde çalışan bilim insanları ise bu yılın başlarında yürüttükleri çalışmalarda, kod üretmesi veya matematik problemlerini çözmesi istendiği zaman ChatGPT’nin henüz bilinmeyen sebeplerle daha özensiz cevaplar verdiğini keşfetmişler. ChatGPT sıradan halk arasında popüler ve eğlenceli bir araç olsa da, gündelik kullanım için çok pratik değil.

Ayrıca görsel bulmacalarda ve gerçek dünyanın fiziği ile alanlarını anlamada halen berbat bir performans sergiliyor. Google, bu doğrultuda sorunu çözmek için multimodal dil modelleriyle robotları birleştirmeye çalışıyor.

Bu modellerin bizim gibi düşünüp düşünmediğini; bilişsel süreçlerinin bizimkine benzeyip benzemediğini söylemek zor. Bununla beraber test çözmede iyi olan bir yapay zeka, genelde bir insan gibi zeki değil. Sınırlarının nerede olduğunu ve potansiyellerinin neler olabileceğini söylemek zor. Bunun için içlerinin açılması ve yazılım ile eğitim verilerinin açığa çıkarılması gerekiyor. OpenAI’nin geniş dil modeli araştırmasını çok sıkı koruması ise uzmanların yönelttiği temel eleştirilerden biri.

Yazar: Charlotte Hu/Popular Science. Çeviren: Ozan Zaloğlu.

ETİKETLER:
chatgpt
kısa bilimsel makale
üniversite sınavı
Yapay Zeka

Facebook

Twitter

Pinterest

WhatsApp

CEVAP VER

Save my name, email, and website in this browser for the next time I comment.

ARAMA YAP

DERGİDE BU AY
Satın almak için tıklayınız

Abone olmak için tıklayınız

1872 yılından beri yayınlanan, dünyanın bir numaralı popüler bilim ve teknoloji dergisi Popular Science, dijital dünyada da sizlerle. Okuyucularına bilim, inovasyon ve teknoloji konularında keyifli ve güvenilir içeriklerle bilgi veren Popular Science, bilimin Türkiye’deki öncü yayını.

POPÜLER KATEGORİLER
BİLİM3781
Haber2582
BİYOLOJİ2117
SAĞLIK2080
TEKNOLOJİ1362
UZAY1358
DOĞA1086
ÇEVRE997
DERGİ
SATIN AL
ABONELİK
BİZE ULAŞIN
KÜNYE
ÇEREZ POLİTİKASI
AYDINLATMA METNİ
© ©2020 Popular Science. Bütün hakları gizlidir.
Size daha iyi hizmet sunabilmek için