[Лонг] Как я обновил обложку в профиле или мой первый опыт использования нейросетей
Небольшая история создания и подробности ниже.
Содержание:
ПРЕДЫСТОРИЯ
Не так давно увидел в одном профиле на DTF (к сожалению, ссылку на блог не смог найти, т.к. идея с постом пришла не сразу) вот такую обложку:
Концептуально понравилась, но именно эту же поставить не захотел. Попытался вначале отыскать что-то в похожей стилистике на Pinterest, погуглить, но не нашел.
// Бум с нейросетями меня как-то не зацепил, общаться и слушать от друзей что-то на эту тему, в целом, было интересно, я понял, что это инструмент, который дает широкий спектр возможностей и может неплохо помогать в различных сферах (от просто бытовой до работы и творчества). Однако, прям дикого интереса что-то там выискивать (тестировать разные нейросети, искать промпты, обучать модель для каких-то прикладных задач и т.д.) не было, да и сейчас особо нет. Как понимаете, каких-то экспертных знаний у меня нет, просто делюсь событиями и новым опытом.
Тем не менее, мысли и некий интерес про использование нейросетей были только для изображений. Мне нравится визуал в разных проявлениях: графика игр, различные арты, синема, прикольные фото и т.д., отсюда и мое увлечение скриншотами. Но любопытство было не сильным, да и каких-то прикладных задач не было. Но вот появилась)) //
И думаю, что делать - вот попробую, как раз через нейронку что-то сгенерировать себе.
1. Мой опыт использования Шедеврум и Алиса AI.
Углубляться в какие-то сложные сервисы с большим количеством параметров смысла не видел, да и опять же не так интересно.
Решил начать с простого - посмотреть, что мне могут предложить наши сервисы Яндекса: слышал уже за Алису AI и обнаружил Шедеврум.
Залогиниться можно через Яндекс ID, бесплатный тариф с неограниченным числом генераций (с небольшими просмотрами рекламы после каждой 5 вроде), с веб-версией и приложением на смартфон.
И на мое удивление, уже первая генерация была вполне нормальной:
// Далее я не буду показывать прям все подряд генерации и промпты, потому что их было херово-кукуево, особенно с учетом видео //
Следующей задачей была генерация видео: Шедеврум предлагает это сделать на базе YandexART v.3, но именно с написанием отдельного промпта, показывает первый кадр и, если устраивает, начинает генерировать видео (~3-10 минут).
В целом звучит неплохо, но нет возможности уже готовое изображение «анимировать». Сделал немало попыток, несколько сохранил. Покажу один пример ОТНОСИТЕЛЬНО успешного результата:
Через кучу генераций так и не получилось достойного результата. На мой взгляд, главный минус, как и говорил выше (нет возможности уже готовое изображение «анимировать»), сводится к чему: получаешь первый кадр, он может не понравится, делаешь по новой, на раз 10 выпадает нужный, нажимаешь создать видео, оно выходит корявым и… опять по новой, и на одинаковые «стартовые кадры» не наткнешься, могут быть очень похожие, но не один в один. По итогу: вот выше генерация, которая визуально мне подходит, но с кривыми движениями.
Начал думать какой другой найти сервис, чтобы создать видео. Принялся искать и СТОП, вспомнил, что натыкался (кстати, на DTF), что можно оживлять картинки с помощью нейросетей Яндекса, но не в Шедеврум, а именно в приложении Алиса AI.
Вроде одно и тоже, но нет, это как раз дает возможность анимировать уже готовую картинку (~1-5 мин.), а не с нуля каждый раз, как в Шедеврум.
И тут снова удивление - после нескольких попыток вполне неплохо:
Небольшое неудобство, что промпты не сохраняются в истории приложения. Поэтому, если получилось удачно, его лучше куда-то скопировать, чтобы каждый раз не набирать и не забыть (с видео аналогично).
И вот вырисовывается рабочая схема: генерируешь картинку в Шедеврум, анимируешь в Алиса AI.
2. Мой опыт использования Leonardo AI и DaVinci AI.
Хотел я уже остановится на варианте выше, немного докрутив его, НО разыгралось любопытство и появилась мысль: если наши сетки в бесплатном плане дают такие возможности, что же там у зарубежных и т.д., наверное, сделает еще лучше и быстрее.
Поискал в интернете, позадавал вопросы Алисе AI и спросил у товарища. Вырисовался определенный список из: DALL-E 3; Midjourney; Stable Diffusion XL; Lexica Aperture v3.5; Leonardo AI; DaVinci AI; Playground AI и другие. Почти все были откинуты из-за небольшого числа бесплатных генераций в день и различных моментов, в которых мне не хотелось разбираться. Остановился на DaVinci AI, которую перепутали с Leonardo AI (друг назвал первую, но оказалось что имел ввиду вторую😁, Леонардо да Винчи, крч). В итоге опробовал и ту и ту, вкратце расскажу за обе, т.к. результат похожий.
Регаться можно через gmail, работает иногда и просто, а иногда только через випи и н, предоставляют на бесплатном тарифе уже вполне широкий функционал, ограниченные регенерации (3-5 в день).
И вот прикол - генерации были совсем не тем, что мне хотелось бы видеть.
// Этим я не говорю, что они плохие, видно, особенно в Leonardo AI, что инструмент массивный, гибкий, и пользователей много (причем несколько платных тарифов, к чему такая вариативность, если бы люди не особо пользовались, да и самый базовый пакет стоит 12$ в меcяц). Сложилось впечатление, что под более детальные задачи, для тех, кто уже шарит, или для тех, кто планирует этот сервис использовать на постоянке, в коммерции и т.д. DaVinci AI - меньше функционала, но не отстает. //
В итоге мне не подошли. Да, скорее всего, если разобраться, то необходимый результат можно получить. Но зачем? В условиях ограниченных генераций это долго, с учетом этого вникать в настройки и экспериментировать тоже время. Яндекс выдает для меня уже приемлемый результат. Да и не так интересно мне это.
Результаты генераций ниже. Для видео даже показывать не хочу, там вообще угар:
Промпт (тут я подзаморочился, написал большой, но это не особо помогло, разница с короткими не существенна): Pixel art illustration of Big Boss from Metal Gear Solid V: The Phantom Pain, smoking a thick cigar with a glowing ember, set against a scenic background of a desolate desert landscape at sunset, with a warm orange and purple hue, no glasses, no shoulder patch, rendered in a retro 16-bit style with bold lines, vibrant colors, and a low-resolution texture, featuring Big Boss's rugged facial features, weathered skin, and iconic beard, with a determined expression, wearing his signature sneaking suit, with the cigar smoke curling upwards, blending with the surrounding environment.
Промпт: Pixel art illustration of Big Boss from Metal Gear Solid V: The Phantom Pain, smoking a cigar, scenic background, no glasses, no shoulder patch, retro 16‑bit style.
Пишешь "no glasses", рисует в очках, все четко.
Так же смутило то, что на бесплатном тарифе Leonardo AI нельзя удалять генерации (да, чтобы просто удалить, нужно платить), тем самым весь профиль заполняется мешаниной. Скрыть можно тоже только на платной подписке. Вроде и не критично, но мне такое не нравится, благо хоть, если удалить аккаунт, это все уйдет в небытие.
В DaVinci AI такая же ерунда, кнопки удалить, попросту нет, поддержка работает не так быстро, как у Leonardo AI, жду ответа как это сделать.
3. Мой опыт использования Playground AI.
После этого решил, еще что-то попробовать, и это был Playground AI (нет, это не сайт playground.ru разработал нейронку😁), который меня привлек количеством бесплатных генераций - 100 в сутки. Тут я остановлюсь подробнее, так как, благодаря этому инструменту и получился итоговый вариант.
Регаемся, можно через gmail, поначалу работала просто, но через пару дней стало только через випи и н (возможно, просто нюансы интернета или так совпало, что уже и там ограничили).
Здесь меня встретил более лаконичный интерфейс, визуально который мне нравится больше (чем-то напоминает формат Pinterest).
И сразу же первая генерации выдала БАЗУ, причем промпт был недлинный:
Анимировал через Алиса AI и классно выглядит:
В мобильном приложении есть ограничение: с нуля нельзя создавать генерации (только в веб-версии). Промпт не сохраняется в описании, поэтому его лучше куда-то скопировать, чтобы каждый раз не набирать и не забыть.
Удобно, что стрелочками сверху ↩ ↪ можно переходить между историей генераций, как в обычном редакторе.
Заметил, что часто, если на одно и тоже изначальное изображение накладывать несколько генераций, каждая очередная может убирать какие-то детали (например, как на скинах ниже: Биг Босс с повязкой на глаз, потом уже нет, просто лицо):
Следующее, что меня заинтересовало в Playground AI - это функция изменения уже готового изображения. О чем я расскажу в пункте ниже.
4. Как получился итоговый вариант.
Небольшая предыстория. Недавно оставлял коммент со своим скриншотом, стилистика мне запомнилась. Пробовал изначально в Шедеврум сгенерировать по типу: «Биг Босс курит сигару в вертолете», но не особо получилось, поэтому решил взять готовое изображение и воспользоваться функцией в Playground AI. Эти скрины только из меню игры, слова можно убрать через редактор (или нейросеть), но не нашел у себя подходящий по композиции.
Благо Pinterest выручил: уже и без меню и визуально мне подходит, взял за основу:
После большого количества генераций с перебором разных вариантов промптов и стилей, получил результат, который мне понравился:
Вот таким образом:
Модель: 4o image; Change Style: стиль, который на скрине рядом.
Через небольшое количество попыток через Алиса AI получил анимацию:
Хоть вариант был хорошим, но не стал заключительным. Алиса генерирует видео по 4 секунды, и здесь анимация в конце довольно прерывистая для повтора. Я решил получить раскадровку: два-три таких видео и соединить их вместе по похожим кадрам, чтобы потом зациклить в плавную анимацию.
Но тут уже не все так гладко. Начиная от того, что Алиса вносит сама много «творчества» в эти видео: шевеление ртом, хаотичные движения головы и рук. Затем тяжело получить жестко фиксированную анимацию, например пишешь: «Персонаж не подвижно держит сигару в руке. От сигары идет дым. Персонаж не курит сигару». Но этого не происходит - он курит, руки шевелятся и т.д.
Да что говорить, просто чтобы получить анимацию наклона головы вниз ушло попыток 10:
Заканчивая тем, что сигары, дым и другие детали рисуются разными.
Поэтому, если есть задача получить несколько связных простых кадров, это может быть очень долго. Хотя, возможно, я что-то не так делаю.
Так или иначе, от этой идеи я отказался и через энное количество генераций, выбрал один вариант, который устроил - с него и начинался пост, и который вы можете видеть в обложке профиля.
ИТОГИ
1. Если вы хотите получить быстро и бесплатно генерации изображений, Шедеврум и Playground AI отлично для этого подойдут, причем второй сервис еще и даст возможность изменять уже готовые иллюстрации.
2. Если есть задача «оживить» готовое изображение также быстро и бесплатно, Алиса AI с этим справится, но не с первой попытки и с учетом, что устраивает видео на 4 секунды.
3. Leonardo AI и DaVinci AI показались мне спорными решениями, однако, возможно их функционал раскрывается при углубленном изучение и/или на платных тарифах.
4. И помните: курение не вредит Биг Боссу, но вредит вашему здоровью 😁.
// 🔙 — к содержанию //