Авторы сообщают что благодаря более крупному картиночному энкодеру CLIP-ViT-G у них получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в доступе для всех желающих.
Джуди до сих пор не знает - нейронка не нужна