Yapay Zekâ Girişimi Perplexity, Robots.txt Engellerini Aştı mı?

Yapay zekâ girişimi Perplexity, kendilerini açıkça taranmak istemediklerini belirten internet sitelerinden içerik çekmekle suçlanıyor. Bu iddia, internet altyapı sağlayıcısı Cloudflare tarafından yayımlanan bir araştırmayla gündeme geldi.

Cloudflare, Pazartesi günü paylaştığı bulgularında Perplexity’nin içerik tararken kimliğini gizlediğini ve sitelerin koyduğu engelleri bilinçli olarak aştığını öne sürdü. Şirketin araştırmacılarına göre, bu davranış Perplexity’nin “sitelerin tercihlerinden kaçınmak amacıyla” gerçekleştirildi.

Google’dan Yapay Zekâ Destekli Alışveriş İçin Açık Standart

Google’dan Sağlık Aramalarında AI Overviews Geri Adımı

Grok’un Görsel Özelliğine Ücret Kısıtlaması

Yapay zekâ ürünleri, doğru çalışabilmek için internetten büyük miktarda veriye ihtiyaç duyuyor. Sektördeki birçok şirket gibi Perplexity de metin, görsel ve video gibi içerikleri genellikle izin almadan topluyor. Buna karşılık, birçok internet sitesi bu durumu önlemek amacıyla “robots.txt” adlı standart dosyayı kullanarak hangi sayfaların taranıp hangilerinin taranamayacağını belirtiyor. Ancak bu yöntem her zaman işe yaramıyor.

Cloudflare, Perplexity’nin bu engelleri aşmak için botlarının kimliğini tanımlayan “user-agent” bilgisini değiştirdiğini ve internet üzerindeki büyük ağları tanımlayan ASN numaralarını da değiştirerek taramaya devam ettiğini belirtiyor. Şirketin açıklamasına göre, bu davranış günde milyonlarca isteği ve on binlerce alan adını kapsayacak ölçekte gerçekleşti. Cloudflare, bu botları makine öğrenimi ve ağ sinyalleri kullanarak tespit ettiklerini bildirdi.

Perplexity sözcüsü Jesse Dwyer ise Cloudflare’in yayımladığı blog yazısını “satış taktiği” olarak niteledi. Dwyer, daha sonraki açıklamasında da blogda adı geçen botun “kendilerine ait olmadığını” iddia etti.

Cloudflare, söz konusu davranışları kendi müşterilerinden gelen şikâyetler üzerine incelediklerini aktardı. Müşterilerin Perplexity’nin sitelerini taradığını ve robots.txt dosyası ile Perplexity botlarını engellemeye çalıştıklarını belirtmesi üzerine şirket, yaptığı testlerle Perplexity’nin bu kuralları kasıtlı olarak aşmaya çalıştığını doğruladıklarını söyledi. Cloudflare’in iddiasına göre, şirket yalnızca kendi botlarıyla değil, aynı zamanda macOS’ta çalışan Google Chrome tarayıcısı gibi davranan genel bir tarayıcı aracılığıyla da içerik topluyor.

Bunun üzerine Cloudflare, Perplexity’e ait botları doğrulanmış liste dışına çıkararak onları engellemek için yeni teknikler geliştirdiklerini açıkladı.

Öte yandan Cloudflare, son dönemde yapay zekâ botlarına karşı daha sert bir tutum benimsiyor. Geçtiğimiz ay şirket, site sahiplerinin yapay zekâ içerik toplayıcılarından ücret alabileceği yeni bir pazar yeri duyurdu. Cloudflare CEO’su Matthew Prince, o dönemde yaptığı açıklamada “yapay zekânın internetin, özellikle de yayıncılık sektörünün iş modelini bozduğuna” dikkat çekmişti. Şirket, geçtiğimiz yıl da yapay zekâ eğitimi için içerik toplayan botları engellemek amacıyla ücretsiz bir araç sunmuştu.

Bu, Perplexity’nin izinsiz veri toplama iddiasıyla ilk kez gündeme gelişi değil.