Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию. Я взял за основу модель Stable Diffusion и несколько популярных мобильных игр. Вот что из этого вышло. +1
Очень нехватает более подробного описания как обучал. Каким методом? Или так и гуглить fine-tunning?
Если доводилось с кодом работать, то можно посмотреть в библиотеке Diffusers, там есть пример fine-tunning скрипта https://github.com/huggingface/diffusers.
В оригинальном репозитории Stable Diffusion вроде тоже что-то было, но там говнокод