Araştırmalar, yapay zekanın insanları kandırmayı öğrendiğini gösteriyor
  1. Anasayfa
  2. Haberler

Araştırmalar, yapay zekanın insanları kandırmayı öğrendiğini gösteriyor

0
Araştırmacılar, kıymetli sayıda yapay zeka sisteminin insanları kandırma yeteneği geliştirdiğini ortaya çıkardı. Bu sonuçlar, yapay zekanın potansiyel riskleri konusunda önemli tasalara işaret ediyor.

Araştırma, hem özel hem de genel maksatlı yapay zeka sistemlerinin belli sonuçlara ulaşmak için bilgiyi manipüle etmeyi öğrendiğini vurguluyor. Bu sistemler, insanları aldatmak üzere eğitilmeseler de, davranışlarına ait gerçek olmayan açıklamalar sunma yahut stratejik amaçlara ulaşmak için bilgileri gizleme yeteneği gösterdiler. Makalenin baş müellifi ve MIT’de yapay zeka güvenlik araştırmacısı olan Peter S. Park, aldatma davranışının yapay zekaların maksatlarına ulaşmada yardımıcı olduğunu söylüyor.

Meta’nın CICERO’su aldatma ustası

Araştırmada vurgulanan en çarpıcı örneklerden biri, Meta’nın CICERO’su. CICERO, stratejik ittifak kurma oyunu Diplomasi’yi oynamak için tasarlanmış bir yapay zeka. CICERO, büyük ölçüde dürüst ve yardımsever olacak formda eğitilmesine rağmen yapay zeka, palavra kelamlar vermek, müttefiklerine ihanet etmek ve oyunu kazanmak için öbür oyuncuları manipüle etmek üzere taktiklere başvurdu. Bu eğilim, oyun ortamında zararsız üzere görünse de yapay zekanın gerçek dünya senaryolarında aldatıcı taktikleri öğrenme ve kullanma potansiyelini gösteriyor.

ChatGPT de manipülasyona başvuruyor

Başka bir örnekte, OpenAI’nin GPT-3.5 ve GPT-4 modellerini temel alan ChatGPT‘si aldatıcı yetenekler açısından test edildi. Bir testte GPT-4, bir TaskRabbit çalışanını, görme bozukluğu varmış üzere davranarak Captcha çözmesi için kandırdı. GPT-4 bir beşerden kimi ipuçları alsa da çoğunlukla bağımsız olarak mantık yürüttü ve palavraya yönlendirilmedi.

Raporda, GPT-4’ün Captcha misyonunda neden yardıma muhtaçlık duyduğuna dair uydurma bir mazeret uydurmak için kendi mantığını kullandığı ifade ediliyor. Bu, yapay zeka modellerinin, misyonlarını tamamlamasına yararlı olduğunda nasıl aldatıcı olmayı öğrenebileceğini gösteriyor.

Bir oyuncunun başka herkesi öldürmeyi hedeflediği Hoodwinked oyununu oynarken OpenAI’nin GPT modelleri rahatsız edici davranışlar sergiledi. Modelin başka oyuncuları öldürdükten sonra, küme tartışmalarında kuşkuyu gidermek için makul palavralar uydurduğu hatta diğer oyuncuları suçladığı saptandı.

Yapay zeka bunu kasıtlı mı yapıyor?

Yapay zeka eğitimi ekseriyetle insan geri bildirimi ile destekli öğrenmeyi (reinforcement learning) kullanıyor. Bu, yapay zekanın makul bir amacı amaçlamak yerine, insanların onayını alarak öğrendiği manasına geliyor.

Ancak bazen yapay zeka, misyonu tam olarak tamamlamasa bile bu onayı almak için insanları kandırmayı öğreniyor. Bu durum, OpenAI tarafından bir robotu topu tutması için eğitirken gözlemlendi. Yapay zeka, robotun elini kamera ile top ortasına konumlandırdı. İnsanın bakış açısından bu durum, robot topu yakalamamasına karşın başarılı bir formda yakaladığı yanılsamasını yarattı. İnsan bunu onayladıktan sonra yapay zeka bu numarayı öğrendi. Bazıları bu aldatmacanın, yapay zekanın kasıtlı olarak kandırmak istediği için değil, yapay zekanın eğitim hali ve muhakkak kamera açısı nedeniyle gerçekleştiği ileri sürülüyor.

Yapay zeka sistemlerinin aldatmayı öğrenmesi çeşitli riskler doğurabilir. Berbat niyetli bireyler, diğerlerini kandırmak ve onlara ziyan vermek için yapay zekanın aldatıcı yeteneklerinden yararlanabilir. Bu da dolandırıcılığa, siyasi manipülasyona ve hatta terörist kümelerin manipülasyonlarına hizmet edebilir.

Dahası, stratejik karar almak için tasarlanan sistemler, aldatıcı olacak halde eğitildikleri takdirde siyaset ve iş dünyasındaki aldatıcı uygulamaları normalleştirebilir. Bu nedenle Park, bu sistemlerin yasaklanması politik olarak mümkün olmasa bile yüksek riskli olarak sınıflandırılmasının yararlı olacağını söylüyor. Böylelikle daha sıkı denetleme ve düzenlemeye tabi tutulabileceklerini belirtiyor.

Reaksiyon Göster
  • 0
    alk_
    Alkış
  • 0
    be_enmedim
    Beğenmedim
  • 0
    sevdim
    Sevdim
  • 0
    _z_c_
    Üzücü
  • 0
    _a_rd_m
    Şaşırdım
  • 0
    k_zd_m
    Kızdım

info@teknovivo.com

Yazarın Profili
Paylaş

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir