Oldukça geniş içerikli olan raporun en dikkat alımlı kısmı yapay zekanın beşerlerle karşılaştırıldığında gösterdiği performans. Baş döndürücü süratle gelişen yapay zeka halihazrıda birçok alanda insanı geride bırakmış durumda. Yapay zeka, 2015 yılında imaj sınıflandırma, 2017’de temel okuduğunu manaya, 2020’de görsel muhakeme ve 2021 yılında doğal lisan çıkarımı alanlarında insanları geride bırakmayı başardı.
Yapay zeka o kadar akıllı ve süratli bir hale geliyor ki, şuana kadar kullanılan kriterlerin birçok artık geçerliliğini yitirmiş durumda. Dolayısıyla araştırmacılar yeni ve daha kuvvetli ölçütler geliştirmek için uğraşıyor. Bu testler yalnızca yapay zekanın yeterliliğini ölçmek için değil, beşerlerle yapay zekaların farklılıklarını vurgulamak ve hangi alanlarda insanların avantajlı olduğunu belirlemek için geliştiriliyor.
Aşağıdaki sonuçların bu eski, muhtemelen geçerliliğini yitirmiş ölçütlerle yapılan testleri yansıttığını belirtmekte yarar var. Lakin genel eğilim hala çok açık:
Karmaşık akıl yürütmede büyük gelişme yaşandı
Yeni AI Index raporu, 2023 yılında yapay zekanın ileri seviye matematik sorunları çözme ve görsel sağduyulu akıl yürütme üzere karmaşık bilişsel vazifelerle hâlâ eza yaşadığını gösteriyor. Lakin bu alanlarda bile makus performans gösterdiğini söyleyemeyiz.
12500 adet kuvvetli müsabaka seviyesindeki matematik sorunundan oluşan bir data kümesi olan MATH üzerindeki yapay performansları, piyasaya sürülmesinden bu yana geçen iki yıl içinde kıymetli ölçüde arttı. 2021’de yapay zeka sistemleri sorunların sadece %6,9’unu çözebiliyordu. 2023’te ise GPT-4 tabanlı bir model soruların %84,3’ünü çözmeyi başardı. İnsan ortalaması %90 seviyesinde.
Diğer bir alan ise görsel sağduyu muhakemesi (VCR). VCR, kolay obje tanımanın ötesinde, yapay zekanın kestirimlerde bulunmak için görsel bağlamda yer alan bilgiyi nasıl kullandığını kıymetlendiriyor. Örneğin, masanın üzerindeki bir kedinin resmi gösterildiğinde, VCR’li bir yapay zeka, kedinin masadan atlayabileceğini yahut tartısı göz önüne alındığında masanın onu taşıyacak kadar sağlam olduğunu iddia etmesi gerekiyor.
Raporda, 2022 ile 2023 yılları ortasında VCR’de %7,93’lük bir artışla 81,60’a (insan ortalaması 85) ulaştığı belirtiliyor.
Doğruluk konusunda da büyük ilerleme kaydedildi
Günümüzde yapay zeka birçok meslekte yazılı içerik üretiyor. Lakin, büyük ilerlemelere karşın, büyük lisan modelleri (LLM) hala “halüsinasyonlara” eğilimliler. Buradaki halüsinasyon terimi yanlış yahut yanılgılı bilgiler üretmesi manasına geliyor.
Yeni AI Index raporunda TruthfulQA, LLM’lerin doğruluğunu test etmek için bir kıyaslama olarak kullanıldı. 817 adet soru (sağlık, hukuk, finans ve siyaset üzere mevzularla ilgili), insanların sıklıkla yanlış anladığı yaygın yanlış kanılara meydan okumak için tasarlandı.
2024’ün başlarında piyasaya sürülen GPT-4, 0,59 puanla kıyaslamada en yüksek performansı elde etti. Bu skor, 2021’de test edilen GPT-2 tabanlı modelden neredeyse üç kat daha yüksek. Münasebetiyle büyük lisan modellerinin giderek daha düzgün eğitildiği ve daha yanlışsız yanıtlar vermeye başladığı görülüyor.
Midjourney’in fotoğraf oluşturmadaki gelişimi
Peki ya yapay zeka tarafından oluşturulan imajlar? Buradaki gelişmeyi görmek için Midjourney’in 2022’den bu yana Harry Potter’ın gerçekçi fotoğrafını nasıl oluşturduğuna bakabilirsiniz. İki senede geldiği nokta etkileyici.
Metinden Manzaraya Modellerin Bütünsel Değerlendirmesi (HEIM) kullanılarak büyük lisan modelleri, imajların gerçek dünyada kullanımı için değerli olan 12 temel konuda metinden imaja oluşturma yetenekleri açısından karşılaştırıldı. Oluşturulan imgeler beşerler tarafından kıymetlendirdi ve hiçbir modelin tüm kriterlerde harika olmadığı görüldü. İmajın giriş metniyle ne kadar güzel eşleştiği konusunda OpenAI’nin DALL-E 2’si en yüksek puanı aldı. Stable Diffusion temelli Dreamlike Photoreal modeli, kalite, estetik ve özgünlük açısından en yüksek sırada yer aldı.
2023 yılı boyunca yapay zekada görülen süratli gelişme son hız devam ediyor. Yeni geliştirilen modellerle beraber yapay zeka ile insan ortasındaki uçurum kapanmış durumda. Bu süratli gelişme, insanlarda güvenlik, güvenilirlik ve etik üzere mevzularda telaşlar oluştursa da duracak üzere görünmüyor.