ChatGPT ve Dall-E ile başlayan serüven Sora ile devam ederek büyüme devam ediyor. Bu yapay zeka araçlarının gerisinde olan OpenAI ise araçlarına güç veren modellerini daima olarak geliştirmeyi sürdürüyor. Bu bağlamda yapay zeka devi kısa müddet evvel ses, imaj ve metin ortasında gerçek vakitli olarak mantık yürütebilen yeni amiral gemisi GPT-4o‘yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, yeteneklerini ve çok daha fazlasına değiniyoruz:
OpenAI GPT-4o nedir, ne yapar?
- GPT-4 düzeyinde zeka deneyimi
- Hem modelden hem de internetten karşılıklar alabilme
- Verileri tahlili ve grafik oluşturabilme
- Çektiğiniz fotoğraflar hakkında sohbet edebilme
- Video aracılığıyla sohbet edebilme
- Gerçek vakitli çeviri
- İnsan gibisi ses, tonlama, mimiklendirme
- Özetleme, yazma yahut tahlil yardımı için evrak yükleme
- GPT Store erişimi ve GPT’leri kullanma
- Memory (Önceki konuşulanları hatırlama) ile daha derin bağlantı kurabilme
OpenAI’a nazaran GPT-4o, çok daha doğal insan-bilgisayar etkileşimine hakikat atılmış bir adımdır; metin, ses ve imajın rastgele bir kombinasyonunu girdi olarak kabul bu model birebir formda metin, ses ve manzara çıktılarının rastgele bir kombinasyonunu üretebiliyor. Bu ortada isimlendirmedeki “o” harfi “omni” manasına geliyor ve modelin metin, konuşma ve görüntüyü sürece yeteneğine atıfta bulunuyor.
Gelişmiş metin, ses ve imaj muhakemesi
İnsan seviyesinde sesli yanıt
OpenAI, modelin “gerçek zamanlı” cevap verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak “bir dizi farklı duygusal tarzda” (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak firma, ses girdilerine 232 milisaniye üzere kısa bir müddette yanıt verebilir. Tek başına bu mühlet bir şey söz etmiyor, o yüzden; bu, bir insanın ortalama cevap müddetiyle eş.
Her şey için tek model
GPT-4o ile metin, imaj ve seste uçtan uca tek model kullanılıyor, yani tüm girdiler ve çıktılar birebir hudut ağı tarafından işleniyor. Bu firma için de bir ilk çünkü daha evvelkiler tüm bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye karşın OpenAI, modelin neler yapabileceğini ve hudutlarını keşfetme konusunda şimdi başlangıç evresinde olduklarını söylüyor.
Görüntü tahlili ve cepte taşınan bir tercüman
GPT-4o ayrıyeten ChatGPT’nin görme yeteneklerini de geliştiriyor. Bir fotoğraf – ya da bir masaüstü ekranı – verildiğinde ChatGPT artık en ayrıntı sorulara (örneğin, “bu kişinin giydiği gömleğin markası ne?” gibi) süratli cevaplar verebiliyor. OpenAI CTO’su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor.
An itibariyle GPT-4o farklı bir lisandaki bir menünün fotoğrafına bakıp onu çeviri edebilirken, gelecekte bu model ChatGPT’nin örneğin canlı bir spor müsabakasını izleyip size kuralları açıklamasına imkan tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş üzere olacaksınız. Çünkü çeviriler, üstte da dediğimiz üzere anlık olarak gerçekleşiyor.
OpenAI, GPT-4o’nun daha çok lisanlı olduğunu ve 50 farklı lisanda performansının arttığını da ekliyor. Şirket, OpenAI’ın API’sinde GPT-4o’nun GPT-4’ten (özellikle GPT-4 Turbo) iki kat daha süratli, yarı fiyatına ve daha yüksek sürat limitlerine sahip olduğunun altını çiziyor.
Ses şu anda tüm müşteriler için GPT-4o API’sinin bir kesimi değil. OpenAI, berbata kullanım riskini münasebet göstererek, GPT-4o’nun yeni ses yeteneklerini önümüzdeki haftalarda kimi ortaklara sunmayı planladığını söylüyor.
Geleneksel ölçütlere nazaran GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo seviyesinde performans gösterirken çok lisanlı, ses ve imaj yeteneklerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor.
GPT-4o’nun kullanılabilirliği
OpenAI, GPT-4o’yu derin öğrenmenin sonlarını bu sefer pratik kullanılabilirlik tarafında zorlamak için atılan bir adım olarak görüyor ve birebir vakitte GPT-4o’nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor.
GPT-4o’nun metin ve imaj özellikleri bugün ChatGPT’de kullanıma sunulmaya başlanıyor. GPT-4o’yu fiyatsız katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek ileti limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus’ta GPT-4o ile Ses Modu’nun yeni bir sürümünü alfa olarak kullanıma alacak.
Geliştiriciler de artık GPT-4o’ya API’de bir metin ve imaj modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo’ya kıyasla 2 kat daha süratli, yarı fiyatına ve 5 kat daha yüksek sürat limitlerine sahip. GPT-4o’nun yeni ses ve görüntü özelliklerine yönelik takviyesi önümüzdeki haftalarda API’deki küçük bir kümeye sunulacak.
Filmlerin gerçekle buluşması
CEO Sam Altman, yaptığı açıklamada vurgulamak istediği birinci şeyin insanlara yetenekli yapay zeka araçlarını fiyatsız olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de fiyatsız kalınacağını söylüyor. Lakin tekrar de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) fiyatlandırılacak çok şeyin olacağının altını çiziyor.
Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı uygun bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin sinemalardaki yapay zeka üzere hissettirdiğini ve bunun hakikaten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı sinemanın “Her” olduğunu düşünüyorum.
GPT-4o ile yapılan örnekler
Teknik ayrıntılar ve genel bilgilerden sonra artık de OpenAI’ın GPT-4o hakkında paylaştığı kimi örnek görüntülere göz atalım. Çünkü bu görüntüler üstte yazdıklarımızın tamamını en ülkü halde sizlere gösteriyor. Örneğin çabucak üstteki köpek görüntüsü. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği yansılar ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve ismini soruyor. İsmini öğrendikten sonra ise ona ismiyle seslenmeye devam ediyor.
Hemen üstteki bir öbür örnekte ise etkileşim kuran ve müzik söyleyen iki GPT-4o’yu görüyoruz. Bunlardan birisi kamera aracılığıyla görebiliyor diyesi ise göremiyor. Görme yeteneğine sahip olan ise başkasına çevreyi yardımsever bir formda açıklayarak tanıtıyor. Ve evet, birlikte müzik da söylüyorlar.
Bu, görme engelli bireyler için mükemmel bir kullanım örneği olabilir üzere duruyor değil mi? Esasen OpenAI da bunu o gayeyle kullanıyor. Firma, Be My Eyes teşebbüsü ile bu mevzuda yakından çalışıyor.
GPT-4o ile gerçek vakitli çeviri de artık bir “gerçeklik” haline geliyor. Üstteki örnekte İngilizce-İspanyolca ve İspanyolca-İngilizce halinde anlık olarak doğal bir lisanda ve insan üzere çeviri yaptığını görüyoruz.
Bir öbür örnekte ise GPT-4o ile ninniler ve fısıltıların nasıl işlediğini görüyoruz. Kullanıcı bir patates hakkında ninni anlatmasını istiyor, akabinde bunu fısıltı tonuyla aktarmasını söylüyor. Hatta GPT-4o, anlatımında çok fısıltıya kaçtığında ise ona biraz daha yüksek tona çıkmasını söylüyor. Elbette tüm bunlar olurken verilen cevaplar ve gülümseme sözleri de kullanıcıya aktarılıyor.
Evet, şaşırtan olmayacak halde GPT-4o tıpkı vakitte süper alaycı da olabiliyor.