Derinlemesine: GPT-4o hakkında merak edilen her şey ve daha fazlası
  1. Anasayfa
  2. Haberler

Derinlemesine: GPT-4o hakkında merak edilen her şey ve daha fazlası

0

ChatGPT ve Dall-E ile başlayan serüven Sora ile devam ederek büyüme devam ediyor. Bu yapay zeka araçlarının gerisinde olan OpenAI ise araçlarına güç veren modellerini daima olarak geliştirmeyi sürdürüyor. Bu bağlamda yapay zeka devi kısa müddet evvel ses, imaj ve metin ortasında gerçek vakitli olarak mantık yürütebilen yeni amiral gemisi GPT-4o‘yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, yeteneklerini ve çok daha fazlasına değiniyoruz:

OpenAI GPT-4o nedir, ne yapar?

  • GPT-4 düzeyinde zeka deneyimi
  • Hem modelden hem de internetten karşılıklar alabilme
  • Verileri tahlili ve grafik oluşturabilme
  • Çektiğiniz fotoğraflar hakkında sohbet edebilme
  • Video aracılığıyla sohbet edebilme
  • Gerçek vakitli çeviri
  • İnsan gibisi ses, tonlama, mimiklendirme
  • Özetleme, yazma yahut tahlil yardımı için evrak yükleme
  • GPT Store erişimi ve GPT’leri kullanma
  • Memory (Önceki konuşulanları hatırlama) ile daha derin bağlantı kurabilme

OpenAI’a nazaran GPT-4o, çok daha doğal insan-bilgisayar etkileşimine hakikat atılmış bir adımdır; metin, ses ve imajın rastgele bir kombinasyonunu girdi olarak kabul bu model birebir formda metin, ses ve manzara çıktılarının rastgele bir kombinasyonunu üretebiliyor. Bu ortada isimlendirmedeki “o” harfi “omni” manasına geliyor ve modelin metin, konuşma ve görüntüyü sürece yeteneğine atıfta bulunuyor.

Gelişmiş metin, ses ve imaj muhakemesi

Temel manada GPT-4o, “GPT-4 düzeyinde” zeka sağlıyor lakin GPT-4’ün birden fazla modalite ve ortamdaki yeteneklerini geliştirmeyi amaçlıyor. Hatırlanacağı üzere GPT-4 Turbo, manzara ve metin kombinasyonuyla eğitilmişti ve imgelerden metin çıktısı üretmek ve bu imajların içeriğini tanımlamak üzere vazifeleri yerine getirebiliyordu. GPT-4o ise sürece konuşmayı da ekliyor.
Hasebiyle GPT-4o ile ChatGPT, dijital sesli asistan haline bürünmüş oluyor. “Peki bu tam olarak ne işimize yarayacak? Esasen ChatGPT konuşmuyor muydu?” dediğinizi duyar üzereyim. Evet, ChatGPT uzunca bir müddettir sohbet robotunun karşılıklarını metinden sese modeli kullanan bir ses moduna sahipti lakin GPT-4o bunu güçlendirerek kullanıcıların ChatGPT ile bir asistan üzere etkileşime girmesine imkan tanıyor.
Örneğin, ChatGPT’ye bir soru sordunuz ve ChatGPT sorunuza yanıt vermeye başladı fakat çabucak soruya bir ek yapmak yahut soruyu yanlış anlayan aracı düzeltmek istediniz. Bu senaryoda evvelden ChatGPT’nin yazmasının yahut konuşmasının bitmesini beklemek gerekiyordur. Fakat GPT-4o takviyeli ChatGPT ile aracın sözünü kesebilir ve yeni bir etkileşim başlatabilirsiniz.

İnsan seviyesinde sesli yanıt

OpenAI, modelin “gerçek zamanlı” cevap verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak “bir dizi farklı duygusal tarzda” (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak firma, ses girdilerine 232 milisaniye üzere kısa bir müddette yanıt verebilir. Tek başına bu mühlet bir şey söz etmiyor, o yüzden; bu, bir insanın ortalama cevap müddetiyle eş.

GPT-4o’dan evvel, ChatGPT ile konuşmak için Ses Modunu ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikme müddetleriyle kullanabiliyorduk. Bu eski modellerde Ses Modu için aslında üç farklı modelden oluşan bir süreç kullanılıyordu: kolay bir model sesi metne dönüştürüyor, GPT-3.5 yahut GPT-4 metni alıyor ve metin çıktısı veriyor ve üçüncü bir kolay model bu metni tekrar sese dönüştürüyordu. Haliyle bu süreçte bilgi kaybı fazla olurken tıpkı vakitte tonlamalar yahut kahkaha, müzik söyleme ve hisler söz edilemiyordu.

Her şey için tek model

GPT-4o ile metin, imaj ve seste uçtan uca tek model kullanılıyor, yani tüm girdiler ve çıktılar birebir hudut ağı tarafından işleniyor. Bu firma için de bir ilk çünkü daha evvelkiler tüm bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye karşın OpenAI, modelin neler yapabileceğini ve hudutlarını keşfetme konusunda şimdi başlangıç evresinde olduklarını söylüyor.

Görüntü tahlili ve cepte taşınan bir tercüman

GPT-4o, matematik sorularını da yapabiliyor.

GPT-4o ayrıyeten ChatGPT’nin görme yeteneklerini de geliştiriyor. Bir fotoğraf – ya da bir masaüstü ekranı – verildiğinde ChatGPT artık en ayrıntı sorulara (örneğin, “bu kişinin giydiği gömleğin markası ne?” gibi) süratli cevaplar verebiliyor. OpenAI CTO’su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor.

An itibariyle GPT-4o farklı bir lisandaki bir menünün fotoğrafına bakıp onu çeviri edebilirken, gelecekte bu model ChatGPT’nin örneğin canlı bir spor müsabakasını izleyip size kuralları açıklamasına imkan tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş üzere olacaksınız. Çünkü çeviriler, üstte da dediğimiz üzere anlık olarak gerçekleşiyor.

OpenAI, GPT-4o’nun daha çok lisanlı olduğunu ve 50 farklı lisanda performansının arttığını da ekliyor. Şirket, OpenAI’ın API’sinde GPT-4o’nun GPT-4’ten (özellikle GPT-4 Turbo) iki kat daha süratli, yarı fiyatına ve daha yüksek sürat limitlerine sahip olduğunun altını çiziyor.

Ses şu anda tüm müşteriler için GPT-4o API’sinin bir kesimi değil. OpenAI, berbata kullanım riskini münasebet göstererek, GPT-4o’nun yeni ses yeteneklerini önümüzdeki haftalarda kimi ortaklara sunmayı planladığını söylüyor.

Geleneksel ölçütlere nazaran GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo seviyesinde performans gösterirken çok lisanlı, ses ve imaj yeteneklerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor.

GPT-4o’nun kullanılabilirliği

OpenAI, GPT-4o’yu derin öğrenmenin sonlarını bu sefer pratik kullanılabilirlik tarafında zorlamak için atılan bir adım olarak görüyor ve birebir vakitte GPT-4o’nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor.

GPT-4o’nun metin ve imaj özellikleri bugün ChatGPT’de kullanıma sunulmaya başlanıyor. GPT-4o’yu fiyatsız katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek ileti limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus’ta GPT-4o ile Ses Modu’nun yeni bir sürümünü alfa olarak kullanıma alacak.

Geliştiriciler de artık GPT-4o’ya API’de bir metin ve imaj modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo’ya kıyasla 2 kat daha süratli, yarı fiyatına ve 5 kat daha yüksek sürat limitlerine sahip. GPT-4o’nun yeni ses ve görüntü özelliklerine yönelik takviyesi önümüzdeki haftalarda API’deki küçük bir kümeye sunulacak.

Filmlerin gerçekle buluşması

Bir AI ile duygusal bağ kuran bir kişiyi anlatan sinema, Her.

CEO Sam Altman, yaptığı açıklamada vurgulamak istediği birinci şeyin insanlara yetenekli yapay zeka araçlarını fiyatsız olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de fiyatsız kalınacağını söylüyor. Lakin tekrar de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) fiyatlandırılacak çok şeyin olacağının altını çiziyor.

Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı uygun bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin sinemalardaki yapay zeka üzere hissettirdiğini ve bunun hakikaten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı sinemanın “Her” olduğunu düşünüyorum.

GPT-4o ile yapılan örnekler

Teknik ayrıntılar ve genel bilgilerden sonra artık de OpenAI’ın GPT-4o hakkında paylaştığı kimi örnek görüntülere göz atalım. Çünkü bu görüntüler üstte yazdıklarımızın tamamını en ülkü halde sizlere gösteriyor. Örneğin çabucak üstteki köpek görüntüsü. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği yansılar ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve ismini soruyor. İsmini öğrendikten sonra ise ona ismiyle seslenmeye devam ediyor.

Hemen üstteki bir öbür örnekte ise etkileşim kuran ve müzik söyleyen iki GPT-4o’yu görüyoruz. Bunlardan birisi kamera aracılığıyla görebiliyor diyesi ise göremiyor. Görme yeteneğine sahip olan ise başkasına çevreyi yardımsever bir formda açıklayarak tanıtıyor. Ve evet, birlikte müzik da söylüyorlar.

Bu, görme engelli bireyler için mükemmel bir kullanım örneği olabilir üzere duruyor değil mi? Esasen OpenAI da bunu o gayeyle kullanıyor. Firma, Be My Eyes teşebbüsü ile bu mevzuda yakından çalışıyor.

GPT-4o ile gerçek vakitli çeviri de artık bir “gerçeklik” haline geliyor. Üstteki örnekte İngilizce-İspanyolca ve İspanyolca-İngilizce halinde anlık olarak doğal bir lisanda ve insan üzere çeviri yaptığını görüyoruz.

Bir öbür örnekte ise GPT-4o ile ninniler ve fısıltıların nasıl işlediğini görüyoruz. Kullanıcı bir patates hakkında ninni anlatmasını istiyor, akabinde bunu fısıltı tonuyla aktarmasını söylüyor. Hatta GPT-4o, anlatımında çok fısıltıya kaçtığında ise ona biraz daha yüksek tona çıkmasını söylüyor. Elbette tüm bunlar olurken verilen cevaplar ve gülümseme sözleri de kullanıcıya aktarılıyor.

Evet, şaşırtan olmayacak halde GPT-4o tıpkı vakitte süper alaycı da olabiliyor.

GPT-4o’yu tek bir manzaranın birden fazla görünümünü oluşturmak için bile kullanılabilir ve bu manzaralar 3 boyutlu nesnelere dönüştürülebilirsiniz.
Benzeri halde görsel anlatılar da oluşturmak mümkün. Üstelik bunu yaparken yinelemeli olarak yapabiliyorsunuz. Çabucak üstteki görselde günlük yazan bir robotun birinci şahıs görünümü resmediliyor. Üç adımda günlük girişlerindeki ilerleyiş evvelki temel alınarak devam ettirliyor.
Reaksiyon Göster
  • 0
    alk_
    Alkış
  • 0
    be_enmedim
    Beğenmedim
  • 0
    sevdim
    Sevdim
  • 0
    _z_c_
    Üzücü
  • 0
    _a_rd_m
    Şaşırdım
  • 0
    k_zd_m
    Kızdım

info@teknovivo.com

Yazarın Profili
Paylaş

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir