Безусловно, оптимальным с точки зрения производительности и качества будет гибридный метод. Когда вы генерируете исходные изображения в нейросетях "высокого уровня" и потом объединеете их в вашей домашней нейросетевой кухне (сочетая таким образом контроль который дают модели с открытым кодом, с качеством закрытых нейросетевых моделей).
Лучше бы рисовать научился
Я-то умею рисовать, а что на счет вас? Покажите свой рисуночек )))