Правда итоговую картинку пришлось склеивать из семи вариантов генерации - где-то руки кривые (а это во всех так), где-то гитара не очень и т.д.
Какой моделью пользовался?
Midjourney с включённой функцией объединения изображений.