Yeni hudut ağı, insan yüzünün hareketlerini ve his sözlerini inanılmaz bir doğrulukla taklit edebiliyor. Bu sayede üretilen görüntüler son derece doğal ve inandırıcı görünüyor. Uzmanlar bunu deepfake görüntüler için “korkutucu bir makine” olarak isimlendirdiler.
VASA-1, yüz dinamiklerini ve baş hareketlerini üretmek için zımnî bir yüz uzayı kullanıyor. Microsoft bu tekniğin, evvelki tekniklere kıyasla kıymetli ölçüde gelişmiş olduğunu ve daha gerçekçi sonuçlar verdiğini belirtiyor. Ortaya çıkan çalışmalar da bunu doğrular nitelikte.
Şimdilik genel kullanıma kapalı
Algoritma, 512×512 piksel çözünürlükte ve saniyede 45 kare suratında çevrimiçi görüntü oluşturmayı destekliyor. Bu da modelle etkileşim kurmayı ve gerçekçi avatarlar ile gerçek zamanlı sohbet etmeyi mümkün kılıyor. Microsoft’un şu anda VASA-1’i ticari bir eser olarak piyasaya sürme niyeti yok. Şirket yeni modelin şimdilik araştırma amaçlı bir araç olarak kullanılmasını istiyor.
Görünüşe bakılırsa şirket endişeleri yatıştırmak için VASA-1’in yakın vakitte kullanıcıların eline geçmeyeceği konusunda garanti veriyor. Bu model, film ve oyun sanayisi için yeni imkanlar sunabilir, sanal asistanlar ve müşteri hizmetleri uygulamaları geliştirmek için kullanılabilir ve hatta eğitim ve sağlık kesimlerinde de yararlı olabilir.