Midjorney отличается от других нейросете тем, что это гибридная нейросеть, совмещающая сразу и лингвистическую и художественную модели (плюс постоянная обратная связь с создателями контента). Т.е. когда вы просите нарисовать "кошечку", в дело вступает лингвистическая нейросеть, которая (вам этого не показывают) создает по "кошечке" довольно подробный промт (учитывающй конекст происходящего), который дальше переходит к "художественной" модели.
А это в SD? А с какой моделью?
https://dtf.ru/u/32166-di-di/1971316-alisa-v-gostyah-u-kristofera-robina-2-pulp-diffusion
Нет конечно, это Midjorny. Что бы получить нечто подобное в SD вам нужно будет нарисовать качественный скетч и затем основательно доработать руками. https://dtf.ru/u/32166-di-di/1961239-risuem-zhivopisnuyu-illyustraciyu-v-stable-diffusion