Çin merkezli AI şirketi DeepSeek, Pazartesi günü uzun bağlamlı işlemlerde API kullanım maliyetlerini ciddi şekilde düşürmeyi hedefleyen deneysel bir model olan V3.2-exp’i tanıttı. Modelin duyurusu Hugging Face üzerinden yapılırken, akademik çalışmanın tamamı GitHub’da paylaşıldı.
Yeni modelin en önemli özelliği “DeepSeek Sparse Attention” sistemi. Bu sistem, önce “lightning indexer” modülü ile bağlam penceresinden belirli parçaları önceliklendiriyor. Ardından “fine-grained token selection system” adı verilen ayrı bir sistem, bu parçalar içerisinden dikkat penceresine dahil edilecek token’ları seçiyor. Böylece, sınırlı sunucu kaynaklarıyla uzun bağlamlarda çalışmak mümkün hâle geliyor.
Özellikle uzun bağlamlı işlemlerde sistemin avantajları dikkat çekiyor. DeepSeek’in yaptığı ön testler, basit bir API çağrısının maliyetinin uzun bağlam senaryolarında neredeyse yarıya düşebileceğini gösteriyor. Model açık kaynaklı ve Hugging Face üzerinden erişilebilir olduğundan, üçüncü taraf testlerinin kısa süre içinde bu iddiaları doğrulaması bekleniyor.
DeepSeek’in yeni modeli, özellikle “inference cost” yani önceden eğitilmiş AI modellerini çalıştırma maliyetlerini düşürmeyi amaçlayan son dönemdeki birçok yenilikten biri olarak öne çıkıyor. Araştırmacılar, transformer mimarisini daha verimli kullanmanın yollarını araştırırken, önemli gelişmeler elde ettiklerini belirtiyor.
Şirket, bu yılın başında, çoğunlukla reinforcement learning yöntemiyle eğitilen ve ABD rakiplerine göre çok daha düşük maliyetli R1 modeliyle dikkat çekmişti. Ancak R1 modeli AI eğitiminde büyük bir devrim yaratmamış ve DeepSeek birkaç ay boyunca göz önünden çekilmişti.
Yeni “sparse attention” yaklaşımının R1 kadar büyük bir etki yaratması beklenmese de, özellikle ABD’li sağlayıcılar için inference maliyetlerini düşürmede önemli ipuçları sunabileceği düşünülüyor.

















