Регистрация в Dall-e 2 для чайников

Не так давно разработчики из openAI открыли доступ к новой версии нашумевшей нейросети для генерации изображений по текстовому описанию, но не всем удалось догадаться как можно ей пользоваться, не проживая в странах Европы или США, поэтому делюсь коротким гайдом, как это удалось мне.

5757

MidJorney предлагает за 10 баксов 200 картинок. За месяц наигрался. Сейчас поставил Стабильную Диффузию с веб-интерфейсом и в ней провожу эксперименты. Хотя по ощущениям MidJorney делает более красивые картинки. Даже по одинаковым запросам.

4

Тоже тыкал все три
— MidJourney пока лучшая, она выдает прям интересные результаты сходу, но функционал скудный. Разрешение выходных картинок задается вручную, плюс есть апскейлер.


— Dall-e лучше справляется с чем то абстрактным и больше следует текстовому описанию. Я там пробовал и пиксель-арт, и 3д графику, и лего человечков, и даже ASCII (не очень успешно) - все выдает исправно, MJ подтупливает на этом. Зато функционал шире, например дорисовка фона изображения или его частей это что-то. Разрешение картинок и детализация из коробки лучшая из всех доступных, вроде 1024*1024.


— Stable Diffusion - крутая штука, ещё и потому, что есть сейчас удобный вариант с GUI для чайников и мультиварок, но он выдает пока самые слабые результаты, особенно на лицах (мид лучше всех, далли - похуже). Для получения более-менее сносного варианта надо сначала сидеть перебирать параметры и запрос, потом генерировать вариантов 100 и потом из них выбирать подходящий тебе и уже с его сидом играться, однако функционал конечно самый широкий из доступных. Ну и плюс нет никаких фильтров (политических, NSFW и прочие) и она стоит у тебя на машине, без привязки к сети и можно делать вообще что угодно с ней.
Разрешение на выходе задаётся, но лучше всего справляется с 512*512, вроде как её обучали на таких изображениях. Есть апскейлер и восстановление лица, но на моей тачке не заводится, видимо, потому что у меня не RTX карта.
Ну и можно её самому до обучать, когда-нибудь доберусь до этого тоже, пока времени нет. Но особо надежд на это не возлагаю, пользовательские модели работают ужасно, либо не работают вообще. Как пример: есть модель "pixel-art", при её подключении картинка не особо похожа на пиксель арт, почти ничего не меняется, но вот если в запрос добавить "pixel art", то сразу все преобразуется как надо, даже без библиотеки. Неясно.

3