Регистрация в Dall-e 2 для чайников

И немного собственных опытов

Не так давно разработчики из openAI открыли доступ к новой версии нашумевшей нейросети для генерации изображений по текстовому описанию, но не всем удалось догадаться как можно ей пользоваться, не проживая в странах Европы или США, поэтому делюсь коротким гайдом, как это удалось мне.

Сразу скажу, я не проводил тестов и возможно некоторые отступления от гайда сломают вам регистрацию, вы можете попробовать поэкспериментировать сами и отписать фидбек в комменты — я дополню гайд.

Что нам потребуется:

— VPN, желательно со статическим или полу-статическим IP

— Примерно 50 рублей

— Сайт для покупки номеров для активации аккаунтов

Собственно, гайд:

  1. Подключаемся в VPN
  2. Регистрируем аккаунт на сайте openAI, я использовал почту gMail
  3. При переходе на страницу подтверждения номера покупаем номер страны, в которой находится VPN-сервер и активируем аккаунт купленным номером телефона
  4. Кайфуем

Теперь с подробностями, как это делал я:

  1. Первым делом, нужно изменить свое местоположение. Я пользуюсь WireGuard туннелированием на выделенный сервер в Нидерландах, этого достаточно, чтобы сайт перестал думать, что я нахожусь в России.
    Вы можете попробовать иные VPN сервисы, но я не гарантирую, что бесплатные или даже платные, но популярные сервисы дадут нужный результат, поскольку они не предоставляют статический IP адрес
  2. Далее — регистрируем новый аккаунт, я использовал gmail почту, хоть там и стоят все настройки для РФ и номер привязан соответствующий, все сработало как надо и я добрался до окна подтверждения аккаунта по номеру телефона
  3. Самый «запарный» момент, получить номер страны, которой я «нахожусь». В моём случае — Нидерланды. Я перепробовал много «бесплатных» номеров в открытом доступе, но ни один из них не сработал. Некоторые уже были использованы для создания аккаунтов на сайте, другие просто не принимали SMS.

    Тогда я воспользовался популярным сервисом по покупке временных номеров для активации аккаунтов (не знаю, можно ли писать здесь название этого сайта, но дам подсказку — он на первой странице гугла, но не первый в списке, примерно в середине). Покупка приватного номера Нидерландов без привязки к сервису регистрации обошлась мне в 57.90₽, пополнение на сайте доступно через множество различных платёжных систем, я выбрал систему с оплатой по СБП, комиссия составила 1,045%, хотя заявлено было 3%.

    Номер успешно подошёл, код активации пришёл и я подтвердил аккаунт.
  4. Вот и всё

По поводу того как работает Dall-e:

  • В отличие от MidJourney, здесь видно сколько кредитов на аккаунте — по стандарту их 50 и ровно спустя месяц они обновляются до 15. То есть, неважно сколько у вас кредитов — их станет 15 и дальше каждый месяц будет также.
  • Существуют 3 доступных операции, каждая стоит 1 кредит:
  1. Генерация 4 изображений по одному текстовому запросу
  2. Генерация 4 вариаций по созданному изображению или пользовательскому загруженному изображению
  3. Генерация части изображения (4 вариации) по текстовому запросу (или расширение изображения)

Я попробовал каждую, используя запрос из новости про перегенерацию моделей Fallout в stableDiffusion, поскольку я имею некоторые сложности с формулированием подробных запросов.

Woman in metal armor Mad Max Fallout, modern style, detailed face, beautiful face, by Greg Rutkowski and Alphonse Mucha, D&D character, in front of an urban background, digital painting, concept art, smooth, sharp focus illustration, ArtStation HQ

Исходник и результат работы автора Misha_Vozduh с reddit в stableDiffusion
Исходник и результат работы автора Misha_Vozduh с reddit в stableDiffusion

Генерация нового изображения по запросу

Как видно, картинки получились неплохие, достаточно проработанные и качественные.

Генерация вариаций изображения

В качестве референсного изображения я выбрал первое из прошлой подборки.

Редактирование изображения по текстовому запросу

На сайте представлен простой редактор — можно вставить свое изображение, нарисовать простые геометрические фигуры или стереть части изображения. Те части, которые остались стёртыми — нейросеть дорисует. В качестве референса я взял изображение созданное по тому же запросу в stableDiffusion, где нейросеть плохо справилась с лицом. Я стёр лицо и часть плеча слева и в качестве текстового запроса задал описанный выше.

Самое удачное, на мой взгляд — с розовым лицом, поправить цвет можно в фотошопе, а по качеству детализации оно вышло лучше всех.

Генерация по референсному изображению из stableDiffusion

Как показывает опыт — нейросеть нормально генерирует лица с нуля, но если использовать референсное изображение с плохо сгенерированным лицом, оно будет таким же нереалистичным и кривым, как в исходнике.

Надеюсь, гайд был вам полезен и я не ошибся с подсайтом для публикации. Всем удачных генераций!

Также, если у вас не получается или нет желания регистрироваться, можете кидать свои запросы (в рамках приличия и правил сайта, а также СТРОГО без политического подтекста) в ответ на мой комментарий — на русском или английском, самые интересные на мой взгляд я сгенерирую и пришлю ответным комментарием.

5757
83 комментария

MidJorney предлагает за 10 баксов 200 картинок. За месяц наигрался. Сейчас поставил Стабильную Диффузию с веб-интерфейсом и в ней провожу эксперименты. Хотя по ощущениям MidJorney делает более красивые картинки. Даже по одинаковым запросам.

4

Тоже тыкал все три
— MidJourney пока лучшая, она выдает прям интересные результаты сходу, но функционал скудный. Разрешение выходных картинок задается вручную, плюс есть апскейлер.


— Dall-e лучше справляется с чем то абстрактным и больше следует текстовому описанию. Я там пробовал и пиксель-арт, и 3д графику, и лего человечков, и даже ASCII (не очень успешно) - все выдает исправно, MJ подтупливает на этом. Зато функционал шире, например дорисовка фона изображения или его частей это что-то. Разрешение картинок и детализация из коробки лучшая из всех доступных, вроде 1024*1024.


— Stable Diffusion - крутая штука, ещё и потому, что есть сейчас удобный вариант с GUI для чайников и мультиварок, но он выдает пока самые слабые результаты, особенно на лицах (мид лучше всех, далли - похуже). Для получения более-менее сносного варианта надо сначала сидеть перебирать параметры и запрос, потом генерировать вариантов 100 и потом из них выбирать подходящий тебе и уже с его сидом играться, однако функционал конечно самый широкий из доступных. Ну и плюс нет никаких фильтров (политических, NSFW и прочие) и она стоит у тебя на машине, без привязки к сети и можно делать вообще что угодно с ней.
Разрешение на выходе задаётся, но лучше всего справляется с 512*512, вроде как её обучали на таких изображениях. Есть апскейлер и восстановление лица, но на моей тачке не заводится, видимо, потому что у меня не RTX карта.
Ну и можно её самому до обучать, когда-нибудь доберусь до этого тоже, пока времени нет. Но особо надежд на это не возлагаю, пользовательские модели работают ужасно, либо не работают вообще. Как пример: есть модель "pixel-art", при её подключении картинка не особо похожа на пиксель арт, почти ничего не меняется, но вот если в запрос добавить "pixel art", то сразу все преобразуется как надо, даже без библиотеки. Неясно.

3

Как сервис с номерами называется?

4

Как называется узнал или еще ждем ?

Комментарий для ваших запросов.

2

Lenin plays tic-tac-toe with Kurt Cobain

Anthropomorphic cat walking down the street in white Nike sneakers full-length view ultra realistic