Alibaba, açık kaynaklı yeni yapay zekâ modeli Qwen-Image ile görüntü üretiminde metin işleme konusundaki başarı çıtasını yukarı taşıyor. Geçtiğimiz haftalarda yazılım alanına odaklanan Qwen3-Coder modelini tanıtan şirket, bu kez özellikle Çince karakterler gibi karmaşık metinleri yüksek kaliteli görseller içinde doğru bir şekilde işleyebilen Qwen-Image ile dikkat çekiyor.
Qwen-Image, yapay zekâ destekli görsel üretim araçlarının yıllardır yaşadığı temel bir sorunu hedef alıyor: metni doğru yerleştirme ve anlama. Stable Diffusion, GPT-4o destekli Sora gibi modellerin ardından, Qwen-Image da bu alanda yeni bir rekabet başlatıyor. Modelin mimarisi, 20 milyar parametreli Multimodal Diffusion Transformer (MMDiT) yapısına dayanıyor. Görsel-dil verilerini işlemek içinse Qwen2.5-VL koşullu kodlayıcı kullanılıyor.
Eğitim sürecinde “müfredat öğrenimi” yaklaşımını tercih eden ekip, modeli önce basit görsellerle, ardından da paragraf düzeyinde açıklamalarla eğitti. Ayrıca çift kodlama mekanizması sayesinde sistem, bir yandan semantik detayları işlerken, diğer yandan alt düzey yeniden yapılandırma unsurlarını yakalayabiliyor.
Qwen-Image, GenEval, DPG, OneIG-Bench, TIIF, CVTG-2K ve ChineseWord gibi çok sayıda benchmark testinden başarıyla geçerek, GPT Image 1, Seedream 3.0 ve FLUX.1 Kontext gibi kapalı kaynaklı sistemlerle aynı seviyeye ulaşıyor, bazılarını ise geride bırakıyor.
Özellikle Çince metin üretiminde diğer tüm modellerden daha iyi performans sergileyen Qwen-Image, halka açık AI Arena liderlik tablosunda üçüncü sıraya yerleşerek en iyi açık kaynaklı görsel üretim modeli olma unvanını şimdiden kazanmış durumda. Bununla birlikte, bazı kullanıcılar modelin komut uyumu açısından Midjourney’e karşı bariz bir üstünlük göstermediğini belirtiyor.
Alibaba’nın bu hamlesi, yapay zekâ görsel üretiminde metin işleme kalitesine odaklanan yeni bir rekabet dönemini başlatabilir.

















