Генерация изображений из текста. CLIP Guided Diffusion HQ (много картинок)
Нейросети не стоят на месте, и продолжают покорять новые пространства. Многие уже знают о нейросетях, способных генерировать лица, котов, или аниме девочек. Но все они работают только в своём, строго ограниченном диапазоне. А что, если сделать нейросеть, которая будет включать в себя всё вышеописанное, и даже больше? И такая нейросеть есть. CLIP Guided Diffusion HQ. Интересно то, что нейросеть обучали не каждому отдельному предмету на картинке, а давали изображение целиком, с описанием того, что на нём изображено, после чего нейросеть сама старалась найти закономерности. И таких пар ей давали около 400 млн. И несмотря на то, что большинство изображений выглядят как кислотное месиво, или абстрактные объекты на абстрактном фоне, иногда ей удаётся передать общий внешний вид вашего описания (работает только с английским текстом).
Очень хорошо нейросеть справляется и с предметами техники.
Людей генерировать не всегда получается, а те что имеются - могут несколько пугать. Вот вам пару знаменитостей для примера.
Собстна, пользуйтесь! Также, нейросеть испытывает некоторые проблемы с двусмысленным текстом. Так, фразу "Рок группа" она может также трактовать как "Группа камней", из-за схожести названий. Не забывайте покрутить значение Seed, если изображение вас не устраивает. После начала генерации, над картинкой появится серая надпись, которая показывает примерное время до конца генерации (не всегда корректное, и реальное может превышать его в несколько раз).
UPD: Также нейросеть хорошо подражает картинам художников, если добавить подпись, например "by Salvador Dali".