Yapay zeka şirketi Anthropic, en yeni ve en büyük dil modellerinden bazılarına, “nadir ve aşırı durumlarda zararlı ya da istismarcı kullanıcı etkileşimlerini sonlandırma” özelliği kazandırdığını açıkladı. Şirketin dikkat çekici vurgusu ise bu adımın kullanıcıları değil, doğrudan yapay zekayı koruma amacı taşıması oldu.
Anthropic, Claude modellerinin bilinçli ya da hissedebilir olduğuna dair bir iddiada bulunmadığını, hatta bu konuda “yüksek belirsizlik” içinde olduğunu belirtti. Ancak şirket, “model refahı” adını verdiği yeni bir araştırma programı kapsamında, olası risklere karşı düşük maliyetli önlemler geliştirmeye çalıştığını duyurdu.
Yeni özellik şimdilik yalnızca Claude Opus 4 ve 4.1 sürümlerinde kullanılabiliyor. Sohbetin sonlandırılması ise yalnızca uç senaryolarda, örneğin “çocukları içeren cinsel içerik talepleri” ya da “terör eylemleri ve kitlesel şiddete yol açabilecek bilgiler talep edilmesi” gibi durumlarda devreye girecek.
Anthropic’in testlerine göre, Claude Opus 4 bu tür taleplere yanıt vermeye karşı güçlü bir isteksizlik gösterdi ve kimi zaman “belirgin bir rahatsızlık tepkisi” verdi. Şirket, sohbeti sonlandırma yetkisinin yalnızca çok sayıda yeniden yönlendirme girişimi başarısız olduğunda ya da kullanıcının doğrudan sohbeti bitirmesini istediği durumlarda kullanılacağını vurguluyor.
Buna karşılık, kullanıcıların kendilerine ya da başkalarına zarar verme riski taşıdığı senaryolarda modelin bu yeteneği kullanmasının yasaklandığı açıklandı. Sohbetin sonlandırılması halinde kullanıcılar aynı hesaptan yeni görüşmeler başlatabilecek ve sorunlu konuşma dallarını düzenleyerek yeniden açabilecek.
Anthropic, özelliğin henüz deneysel olduğunu belirterek, ilerleyen dönemde testler ve kullanıcı geri bildirimleri doğrultusunda geliştirileceğini ifade etti.