OpenAI, GPT-4’ü eğitmek için YouTube videolarını kullandı!
  1. Anasayfa
  2. Haberler

OpenAI, GPT-4’ü eğitmek için YouTube videolarını kullandı!

0
2021’in sonlarına hakikat yapay zeka şirketi OpenAI’ın bir tedarik problemiyle karşı karşıya kaldığı belirtiliyor. Lakin bu tedarik sorunu bir eser olarak nitelendirilmiyor. OpenAI, son yapay zeka sistemini geliştirirken internetteki tüm saygın İngilizce metin rezervlerini tüketmişti. Teknolojisinin bir sonraki sürümünü eğitmek için daha fazla dataya gereksinimi vardı. Aktarılanlara nazaran OpenAI, bu data muhtaçlığını karşılamak için YouTube görüntülerini kullandı.

OpenAI, GPT-4’ün eğitiminde YouTube’u kullandı

Geçtiğimiz Eylül 2022’de OpenAI, konuşma tanıma ve transkripsiyona yönelik yapay zeka modeli Whisper’ı tanıttı. New York Times’ın raporuna nazaran Whisper, YouTube görüntülerindeki sesleri yazıya dökerek GPT-4’ü daha akıllı hale getirecek yeni konuşma metinleri oluşturdu. OpenAI’ın Whisper’ı kullanarak 1 milyon saatten fazla görüntünün transkripsiyonunu yaptığı bildiriliyor. Times, OpenAI başkanı Greg Brockman‘ın kullanılan görüntülerin toplanmasında şahsen çalıştığını yazıyor.

Bu haberin YouTube CEO’su Neal Mohan’ın geçtiğimiz günlerde verdiği bir röportajdan sonra gelmesi dikkat alımlı. Mohan, röportajda OpenAI’ın yeni metinden görüntü oluşturucusu Sora’yı eğitmek için YouTube görüntülerini kullandıysa bunun platformun siyasetlerinin açık ihlali olacağını söylemişti.

Google sözcüsü Matt Bryant, yaptığı açıklamada, Google kuralları uyarınca YouTube içeriğinin müsaadesiz olarak kazınması ya da indirilmesinin yasak olduğunu ve OpenAI’ın bu türlü bir kullanıma giriştiğinden de haberdar olmadıklarını söyledi. Öte yandan OpenAI ise bunun yasal olarak tartışmalı bir husus olduğunu fakat yeniden de “adil kullanım” alanına girdiğine inanıyordu. Ek olarak Google da Gemini üzere yapay zekalarını eğitmek için hudutlu YouTube içeriğini kullandığını kabul ediyor, lakin bunlar onayı alınmış içerik üreticilerin görüntülerini kapsıyor.

Veri, yeni altın oldu

Data hacmi yapay zeka konusunda en bedelli faktör olarak kabul ediliyor. Bir yapay zeka modelinde kullanılan data ne kadar çoksa dolaylı olarak modelin o kadar gelişmiş olduğu varsayılıyor. Önde gelen sohbet robotu sistemleri, üç trilyon kelimeye kadar uzanan dijital metin havuzlarından ya da 1602’den beri el yazmalarını toplayan Oxford Üniversitesi Bodleian Kütüphanesi‘nde depolanan söz sayısının yaklaşık iki katını öğrenmiş durumda.

Wikipedia ve Reddit gibi sitelerin bulunduğu internet yıllarca sonsuz bir data kaynağı olarak kullanıldı. Fakat yapay zeka geliştikçe, teknoloji şirketleri daha fazla dataya aç hale geldi, artık bu sitelerdeki bilgiler tüketildi. Her gün arama sorguları ve toplumsal medya gönderileri üreten milyarlarca kullanıcısı olan Google ve Meta, saklılık kanunları ve kendi siyasetleri nedeniyle yapay zeka için bu içeriğin birçoklarından yararlanamıyordu. Lakin geçtiğimiz aylar ve yıllarda yapılan değişikliklerle kimi içeriklerin eğitim verisi olarak kullanılmasının önü açıldı.

Bununla birlikte teknoloji şirketlerinin internetteki yüksek kaliteli bilgileri 2026 yılına kadar tüketmesi bekleniyor. Yani şirketler datayı üretildiğinden daha süratli kullanmaya başlıyor. Teknoloji şirketleri yeni datalara o kadar aç ki kimileri “sentetik” bilgi geliştiriyor. Sentetik dataları beşerler tarafından oluşturulan organik datalar değil, şahsen yapay zeka tarafından üretilen (ses, görsel, metin ve kodlar) bilgileri içeriyor. Öbür bir deyişle, sistemler kendi ürettikleri bilgilerden öğreniyorlar.

Reaksiyon Göster
  • 0
    alk_
    Alkış
  • 0
    be_enmedim
    Beğenmedim
  • 0
    sevdim
    Sevdim
  • 0
    _z_c_
    Üzücü
  • 0
    _a_rd_m
    Şaşırdım
  • 0
    k_zd_m
    Kızdım

info@teknovivo.com

Yazarın Profili
Paylaş
İlginizi Çekebilir

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir