Синтез изображений из текста прошел долгий путь от появления DALL-E до Stable Diffusion. Несколько дней назад был открыт код большой (4.3 млрд параметров) модели для генерации изображений, которая привлекла внимание своим новым подходом к генерации - DeepFloyd IF. В этой статье я кратко рассмотрю архитектуру модели, ее возможности и приведу примеры…
И руки и текст в импеинте любой модели можно при наличии желания и терпения, интересно как она в общем в сравнении с другими моделями
Я уже указал, что по FID эта модель превосходит всех аналогов.