Meta, Llama 3 ile yapay zekada bombayı patlattı: İşte yeni modelin detayları
  1. Anasayfa
  2. Haberler

Meta, Llama 3 ile yapay zekada bombayı patlattı: İşte yeni modelin detayları

0

Meta, açık üretken yapay zeka modellerinden oluşan Llama serisinin son üyesini piyasaya sürdü: Llama 3. Llama 3, daha evvelki sürümlerde olduğu üzere elbette tek bir modelden oluşmuyor. Bu bağlamda Llama 3 şu anda 8B ve 70B parametreli iki model yüküne sahip. Bilmeyenler için milyar parametre ne kadar büyükse model de o kadar karmaşık ve güçlü oluyor. Bununla birlikte Meta, yeni jenerasyon büyük lisan modeli Llama’nın mevcut yapay zeka modellerinin birçoklarından daha uygun performans gösterdiğini belirtiyor.

Meta yeni Llama 3 modellerinin (8B ve 70B) evvelki kuşak Llama modelleri olan Llama 2 8B ve Llama 2 70B’ye kıyasla performans açısından büyük bir sıçrama kaydettiğini aktarıyor. Meta, iki özel üretim 24.000 GPU kümesinde eğitilen Llama 3 8B ve Llama 3 70B’nin kendi parametre sayıları için bugün piyasadaki en düzgün performans gösteren üretken yapay zeka modelleri ortasında olduğunu söylüyor.

Gemini ve başkalarından daha güçlü

Şimdilik sırf metin tabanlı cevaplar sunan Llama 3, karşılık verirken daha fazla çeşitlilik sunarken soruları da daha az reddediyor. Birebir vakitte Llama 3’ün daha fazla talimatı anladığı ve evvelkinden daha âlâ kod yazdığının altı çiziliyor. Meta, yayınladığı blog yazısında Llama 3’ün her iki boyutunun da makul kıyaslama testlerinde Google’ın Gemma ve Gemini, Mistral 7B ve Anthropic’in Claude 3’ü geride bıraktığını söylüyor.

Pekala Meta, bunu hangi temellere dayandırıyor? Şirket, Llama 3 modellerinin MMLU (bilgiyi ölçmeye çalışır), ARC (beceri edinimini ölçmeye çalışır) ve DROP (bir modelin metin kesimleri üzerindeki muhakemesini test eder) üzere tanınan yapay zeka karşılaştırmalarındaki puanlarına işaret ediyor. Lakin bunlar CPU’lar özelinde kullanılan sentetik kıyasla testleri üzeredir, en gerçek cevabı vermezler. Lakin yeterli ya da makûs genel bir kıymetlendirme sunmak için bunlar kullanılıyorlar.
Llama 3 8B, her ikisi de 7 milyar parametre içeren Mistral’in Mistral 7B ve Google’ın Gemma 7B üzere öbür açık modelleri en az dokuz kıyaslamada geride bırakmayı başarıyor. Bununla birlikte Llama 3 70B’nin Google’ın Gemini 1.5 Pro da dahil olmak üzere Anthropic’in Claude 3 modelleriyle yakından rekabet ediyor ve bazen geçiyor. Üstteki ve yazıdaki görsellerde alınan puanlara bakabilirsiniz.

Bu ortada, Meta’nın yayınladığı uzunca blog yazısında OpenAI’ın amiral gemisi modeli GPT-4’ten hiç bahsedilmemesi de farklı. Öte yandan Meta, insanların Llama 3’ü GPT-3.5 de dahil olmak üzere öteki modellerden daha üste yerleştirdiğini söylüyor. İnsanların yaptığı değerlendirmeler ise 12 temel kullanım durumunu kapsıyor: tavsiye isteme, beyin fırtınası, sınıflandırma, kapalı soru yanıtlama, kodlama, yaratıcı yazma, çıkarım yapma, bir karakteri/kişiliği canlandırma, açık soru yanıtlama, akıl yürütme, tekrar yazma ve özetleme.

Meta, yeni Llama modellerinin tarihle, mühendislik ve bilim üzere STEM alanlarıyla ilgili sorularda ve genel kodlama tekliflerinde daha yüksek doğruluk sunduğunu söylüyor. Aslında bu, direkt daha büyük bir bilgi seti sayesinde mümkün oluyor: 15 trilyon token’den oluşan bir derleme yahut Llama 2 eğitim setinin yedi katı büyüklüğünde akıllara sakinlik veren ~750.000.000.000 söz. Bilmeyenler için token (buna belirteç yahut jeton da deniyor), “fantastik” sözündeki “fan”, “tas” ve “tik” heceleri üzere alt kısımlara ayrılmış ham bilgi kesimlerini söz ediyor.

Daha büyük Llama 3 modelleri de yolda

Meta, tüm bu datalar için kamuya açık kaynaklardan yararlandığını, Llama 2 eğitim bilgi setinden dört kat daha fazla kod içerdiğini ve İngilizce dışındaki lisanlarda performansı artırmak için bu setin yüzde 5’inin İngilizce olmayan datalara (~30 dilde) sahip olduğunu açıkladı.

Meta, şu anda indirilebilen ve Meta’nın Facebook, Instagram, WhatsApp, Messenger ve web üzerindeki Meta AI asistanına güç veren Llama 3 modellerinin yakında AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM’s WatsonX, Microsoft Azure, Nvidia NIM ve Snowflake üzere çok çeşitli bulut platformlarında barındırılacağını söylüyor. Gelecekte, modellerin AMD, AWS, Dell, Intel, Nvidia ve Qualcomm donanımları için optimize edilmiş versiyonları da kullanıma sunulacak.

Meta, Llama 3’ün çok modlu karşılıklar verebilmesini de sağlayacak daha kapsamlı modellerin halihazırda eğitim sürecinde olduğunu söylüyor. Meta, spesifik olarak 400B’den fazla parametreye sahip olan versiyona işaret ediyor. Llama 3 400B için firma şimdilik rastgele bir kıyaslama paylaşmadı fakat bunun çok fazla süreceğini düşünmüyoruz.

Reaksiyon Göster
  • 0
    alk_
    Alkış
  • 0
    be_enmedim
    Beğenmedim
  • 0
    sevdim
    Sevdim
  • 0
    _z_c_
    Üzücü
  • 0
    _a_rd_m
    Şaşırdım
  • 0
    k_zd_m
    Kızdım

info@teknovivo.com

Yazarın Profili
Paylaş

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir