Авторы сообщают что благодаря более крупному картиночному энкодеру CLIP-ViT-G у них получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в доступе для всех желающих.
осталось найти на картинке "милых рыб"