«Автоматизированный фотошоп»: OpenAI представила нейросеть, которая редактирует изображения по текстовому описанию

GLIDE также умеет создавать картинки «с нуля».

«Автоматизированный фотошоп»: OpenAI представила нейросеть, которая редактирует изображения по текстовому описанию

Компания OpenAI, известная по разработке моделей искусственного интеллекта GPT-3 и DALL-E, продемонстрировала нейросеть под названием GLIDE. В отличие от аналогов, она способна не только генерировать изображения по текстовому описанию, но и редактировать существующие — с сохранением экспозиции и стиля.

Эффекта удалось достичь благодаря диффузионным моделям. Система искажает исходное изображение, постепенно добавляя в него гауссовский шум, а потом поворачивает процесс вспять, дорисовывая необходимые детали. По похожему принципу работает технология Google для увеличения разрешения.

Запрос «корги в галстуке-бабочке и праздничном колпаке»
Запрос «корги в галстуке-бабочке и праздничном колпаке»

Исследователи обучили сеть на 3,5 миллиардах параметров и протестировали её как с классификатором CLIP, так и автономно — второй подход оказался эффективнее и показал выборку более высокого качества.

Правки выполняются за несколько секунд с учётом теней и отражений. Кроме того, система распознаёт не только фотографии, но и иллюстрации, поэтому может адаптироваться под художника или стиль конкретной картины.

Запрос «пожар на заднем плане»<br />
Запрос «пожар на заднем плане»

GLIDE позволяет создавать фотореалистичные изображения, объединять концепции правильным образом и осуществлять художественную визуализацию. По оценкам команды, результаты выглядят предпочтительнее образцов DALL-E в 87% случаев.

OpenAI

Обозреватели из ZME Science отметили, что качество итоговых снимков зачастую сопоставимо с кропотливой работой в Photoshop. Система справляется со сложными запросами вроде «повесить картину Ван Гога на стену», но не всегда понимает странные, например, «автомобиль с треугольными колёсами».

Запрос «сегодня на небе только одно облако»<br />
Запрос «сегодня на небе только одно облако»

Разработчики поделились результатами исследования на научном портале arXiv.org и опубликовали исходный код сокращённой модели на GitHub, чтобы её могли протестировать энтузиасты.

Примеры картинок, сгенерированных GLIDE<br />
Примеры картинок, сгенерированных GLIDE

Ранее в Оксфорде испытали языковую модель MT-NLG с 530 миллиардами параметров — она предупредила об опасности искусственного интеллекта.

13K13K открытий
45 комментариев

Джеймс вне конкуренции.

Ответить

Неплохо!

Ответить

Американцы украли секретные технологии советских ученых

Ответить
Ответить

Наконец-то можно будет работать как настоящий дизайнер

Ответить

"Ты же художник - тебе же не сложно это"

Ответить

Комментарий недоступен

Ответить