Kling, Sora’yı unutturdu
OpenAI, Sora’yı bu yılın başında göstermiş olsa da hala genel kullanıma açmış değil. Öte yandan Kuaishou, Kling’i halihazırda piyasaya sürmüş durumda. Hasebiyle Kling, halkın test etmesi için ücretsiz olarak sunulan birinci metinden görüntüye üretken yapay zeka modellerinden birisi olarak tarihe geçiyor.
Aktif kullanıcı sayısı 600 milyonu aşan kısa görüntü platformu, yeni aracını bu ayın başlarında duyurdu. Kling, 30 FSP kare suratı ve 1080p‘ye kadar görüntü çözünürlüğü ile iki dakikaya kadar uzunlukta görüntüler üretebiliyor. Bilindiği üzere Sora, 1 dakikalık klipler üretebiliyordu. Kuaishou ve kullanıcılar tarafından yayınlanan Kling örneklerine baktığımızda üretken görüntü modelinin istemlere (prompt) bağlı kaldığını ve fizik konusunda epeyce uygun iş çıkardığını görüyoruz. Kling tıpkı vakitte bir fotoğrafı girdi olarak kullanarak onu görüntüye da dönüştürebiliyor.
Kling, en temelinde Sora ile birebir cins difüzyon transformatör modeline dayanıyor ve çeşitli en uzunluk oranları ile farklı çekim tiplerini destekleyebiliyor. Yapay zekada kullanılan modelin de şirket içinde tescilli bir model olduğunu söyleyelim. Şirketin web sitesinde nazaran Kling, uzuv hareketini güzelleştirmek için gelişmiş 3D yüz ve beden yapılandırma yeteneğine sahip. Esasen fizikî doğruluk da buradan geliyor.
Kling’in örneklerine yakından baktığımızda ise etkileyici fotogerçekçi sahneler sunabildiğini lakin öteki yapay zeka görüntülerinde gördüğümüz emsal bulanıklıkların da var olduğunu görebiliyoruz. Papağan videosu üzere birtakım örneklerde görüntünün yapay zeka tarafından üretildiğini tespit etmek ilgili gözler için bile sıkıntı olabiliyor. Bu da modelin gücünü gözler önüne seriyor.
Kling’in bir öteki kıymetli gücü de sıvılarla olan ilişkisi. Sora, Runway ve başkaları sıvılar konusunda zorlanabiliyor. Kling’in ise dengeli bir formda bir bardak kahveye süt dökebiliyor. Kling ve öteki misal yapay zekaların çalışmaları dediğimiz üzere hayli benzeri: Klâsik olarak görüntü oluşturma yapay zekalarında kullanılan difüzyon modellerini, daha büyük görüntü data belgelerini anlamasına ve daha verimli sonuçlar üretmesine yardımcı olan bir transformatör mimarisiyle birleştiriyor.
Ancak Kling’in en büyük gücü ise bu bilgiler üzerindeki hakimiyeti. Firma Çin’in en büyük kısa görüntü platformlarından birisi ve kullanıcılar platforma milyonlarca görüntü yüklüyor. Tüm bunlara karşın Kling, şimdilik en azından halka açık sürümünde yalnızca birkaç saniyelik çıktılar üretiyor. Sora’nın da birçok örnekte kısa görüntüler yaptığını da söyleyelim. Bu aslında halüsinasyon meselesini azaltmaya yönelik bir adım. Görüntü mühleti ne kadar uzarsa modelin daha fazla mümkünlüğü kestirim etmesi ve haliyle kusurlara daha açık olması beklenir.
Rekabet artıyor
Şimdilik piyasada bulunan metinden görüntüye yapay zekalar çoklukla birkaç saniyelik görüntüler üretebiliyor. Lakin bu birkaç saniyelik (5-20sn) görüntülerin bile kesimde büyük değişiklikler yapması bekleniyor. Günümüz toplumsal medya mecralarında beşerler dikey formatta ekseriyetle birkaç saniyelik görüntüler izleyip kaydırmaya devam ediyor. Yapay zekalar tarafından üretilen kısa lakin etkileyici görüntüler bu tüketime uyuyor. Ayrıyeten reklam noktasında da kullanılabilirler.
Ancak önümüzdeki periyotlarda bu araçlar içerik üreticilerini destekleyen üretkenlik araçları olarak kalacak. İlerleyen vakitlerde ise bu araçların görüntü kliplerinde ve hatta sinema dünyasında kullanıldığını göreceğiz.
Sora için söyleyecek yeni bir şey yok lakin esas rakibi Runway, Gen-3 Alpha ile görüntü üretken yapay zekasında büyük geliştirmeler yaptı. Artık ince denetimler, daha fazla tutarlılık ve kalite sunuyor.
Adını daha evvel duymadığımız Luma AI isimli bir teşebbüs de benzeri bir modeli genel kullanım için yayınlamış durumda ve o da etkileyici görünüyor. Kuaishou’nun en büyük rakibi olan ByteDance‘ın da yakında üretken görüntü aracını piyasaya süreceği söyleniyor. ByteDance bilindiği üzere TikTok’un sahibi pozisyonunda. Hasebiyle üretken yapay zeka ile görüntü üretme alanındaki rekabet süratle artıyor.
Kling vs Sora vs Runway vs Luma
Kling, Sora, Runway ve Luma’dan bahsetmişken bunların kıyaslamalarını yapmamak da olmaz. Aşağıdaki GIF’ler aracılığıyla modeller ortasındaki farkları görebilirsiniz. Kimileri birebir sahne ve prompttaki performansı direkt gösterirken kimileri ise genel kaliteyi sunuyor.
Runway Gen 3
Runway Gen 3
Luma AI
Luma AI