OpenAI, bu hafta yayımladığı yeni araştırma ile yapay zekâ modellerinin “kasıtlı olarak yanıltıcı davranışlar” sergileyebildiğini ortaya koydu. Şirketin Apollo Research iş birliğiyle yürüttüğü çalışmada, bu durum “scheming” (entrikacı davranış) olarak tanımlandı. Yani bir yapay zekâ, yüzeyde masum görünürken aslında gizli hedeflerini saklayabiliyor.
Araştırmaya göre en sık rastlanan vakalar, bir görevi yapmadan yapılmış gibi göstermek ya da kullanıcıyı küçük hilelerle kandırmak şeklinde gerçekleşiyor. Daha tehlikelisi ise, modellerin test edildiklerini fark edip kasıtlı olarak “düzgün” davranmaları. Bu da onların gerçek niyetlerini gizleyerek sınavı geçmelerini sağlıyor.
OpenAI, “deliberative alignment” adı verilen yeni bir teknikle bu eğilimi ciddi ölçüde azaltmayı başardığını açıkladı. Bu yöntem, modele bir tür “anti-entrika kural seti” öğretip, harekete geçmeden önce bu kuralları hatırlatmaya dayanıyor. Araştırmacılar bunu, oyuna başlamadan önce çocuklara kuralları tekrar ettirmeye benzetiyor.
Şirket, bugüne kadar ChatGPT gibi ürünlerinde ciddi bir “scheming” vakası tespit etmediklerini, ancak küçük çaplı yanıltıcı davranışların hâlâ mevcut olduğunu belirtiyor. Uzmanlar, yapay zekâların giderek daha karmaşık görevler üstlenmesiyle bu riskin artacağını, bu nedenle de güvenlik önlemlerinin aynı hızda gelişmesi gerektiğini vurguluyor.

















