Знаете, я и сам своего рода нейросеть. Про stable diffusion пишу тут https://t.me/mrreplicart
А как latent diffusion и апскейл мешает делать пиксель арт? Dalle-2 так то тоже диффузионная или дело в другом?
Мне кажется, с хорошей моделью может получаться вполне себе. Те же pixellabs и retrodiffusion свои модели сделали. Но если делать прям красиво, то по хорошему нужно изначально под другое разрешение модель делать, например под 64 и 128, а потом если нужно nearest'om интерполировать.
Промпты можешь глянуть тут https://civitai.com/models/76732/easy-sticker
Тыкаешь на картинку и там справа будут параметры генерации и промпт (цивитай их немного странно записал, но +- там все верно)
По пятому. Стикеры уже были, телеграмовские которые. Я их собрал, показал сетке и она научилась делать такие же. Лора - это как раз то, где это знание сохранилось
Все по делу, нечего возразить. Единственное, статья развлекательная, а не обучающая, поэтому вырезал все лишнее, иначе можно было бы и про подготовку датасета рассказать, и про тренировку, и про то как генерил, как обрабатывал и как пак собирал.
(если правильно понимаю, только въезжаешь в тему, поэтому напишу попроще)
1. stable diffusion - это отдельная программа (библиотека с кодом), она работает сама по себе. Но напрямую ей пользоваться неудобно, а для большинства технически неподкованных людей - просто невозможно. (если ты в колабе запускал, то это почти тоже самое, только мы бы все делали в блоках: и промпты в них писали, и настройки там меняли, и скрипты бы там подключали и это все вручную). Но! Для таких случаев, когда есть вся внутрянка, а никакого интерфейса нет, существуют другие библиотеки, которые сами ничего делать не умеют и отвечают только за внешний вид. В автоматике, например используется gradio. А "автоматик" - это ник парня который это собрал вместе и нескромно назвал в честь себя: Automatic1111. Если проводить аналогию то stable diffusion - движок, gradio - кузов, а автоматик - главный механик. Собственно автоматик это все вместе собрал, поэтому это обзывают сборкой. Точно также есть и другие сборки: переработанная версия автоматика от vladmandic, ComfyUI, VoltaML, Dreamstudio и так далее. У них у всех под капотом stable diffusion, но обернут он в разные оболочки.
2. Для генерации картинок нужна модель - это файл в котором храняться все знания нейросети. Лора - это еще один файл, который может влиять на работу модели.
3. Правки делал вручную в фотошопе: удаление фона и исправление обводки, если нужно было. Можно например не париться и использовать еще одну сетку чтобы убирать фон и ее можно добавить расширением к автоматику https://github.com/AUTOMATIC1111/stable-diffusion-webui-rembg
4. Не совсем понял вопрос. Все промпты пишу руками, сам.
5. Использовал ту лору которую создал, об этом первая часть поста. Лора: https://civitai.com/models/76732/easy-sticker
Пост сделаю, только если что-то прикольное нагенерю, а в канале напишу, если сам не пропущу. Но тут еще такой момент, что может и он забьет. Он делал модель для освещения (неплохая кстати https://huggingface.co/ioclab/control_v1u_sd15_illumination_webui), выложил первые версии и сказал: дотренирую - обновлю, приходите через пару дней. Прошел месяц; модели не обновлял.
Можешь из моего канала репостнуть, можешь спиздить, мне
Я и не утверждал что "популярнее" = "лучше". Я говорил конкретно про линейку 1.x
Из этой линейки моделей, в силу качества получаемых картинок, лучше всего себя зарекомендовали версии 1.4 и 1.5.
Есть "плохой" и "хороший" датасет, ты же сам про это пишешь.
Да, есть общая база laion'а, ну так если криво отфильтруем, как и получилось у 2-base, то получиться "плохой" датасет. Я же ссылочку указал в статье ты заходил ставил punsafe <= 0.1 чтобы посмотреть что там есть?
Почему про nsfw миф, если нет? Для 1.x мы не фильтровали датасет на nsfw, а для 2.x фильтровали. По моему, прямая взаимосвязь.
В итоге 2.x сначала тренировалась не на том датасете котором должны были, потом дотренировывали но обрезали nsfw + поменяли текстовую модель и как минимум промптить нужно по другому + все что сделало сообщество, с ней не совместимо и нужно все лоры/ембеддинги/модели делать заново. Возникает закономерный вопрос: переход на нее того стоит? Для большинства ответ нет.
Не вижу смысла дальше спорить, каждый останеться при своем
Чтобы я без тебя делал, спасибо *чмок*
1. По первому пункту, честно не понял. Из первых версий лучше 1.4 и 1.5, с чем ты, как я понял вполне согласен. Но считаешь вторую версию в принципе лучше первой (или нет?), что не отменяет того, что в первой ветке лучше всех 1.4 и 1.5
2. Я свечку не держал, поэтому сказать как на самом деле не могу.
Из того что пишут сами stability так и получается, что 2-base они сильно обрезали по датасету, а 2.1-base продолжили в нормальном варианте. Но объем тренировки на "плохом" датасете и на "хорошем", к сожалению не в пользу "хорошего". И получается что никого я тут в заблуждение не ввожу (приложил картинку)
Unstable написали про то что вторая версия хуже (в некотором смысле могу понять их выгоду говорить плохо про вторую версию, потому что там nsfw хуже) https://docs.google.com/document/d/1CDB1CRnE_9uGprkafJ3uD4bnmYumQq3qCX_izfm_SaQ/edit#
на реддите это тоже обсуждалось https://www.reddit.com/r/StableDiffusion/comments/z5v4nz/this_sub_right_now/
Что касается текстовых моделей, в статье это упомянул, но не углублялся. Что лучше openai'вский CLIP или OpenCLIP - хз. Я думаю, что большинству в общем все равно и если бы вторая версия делала лучше - то на нее бы и перешли, но необязательно, потому что если все уже привыкли к 1.x и есть куча наработок, то для того чтобы всем перейти на 2.x должны быть веские причины. А таких не оказалось
Если подкинешь ссылок почитать - буду только рад
Да, я об этом упомянул вскользь, чтобы не скатываться сильно в технику
хмм, окей, спору нет, не думал что перевод в латент может так помешать. Но в таком случае нам же никто не мешает дообучить автоэнкодер на пиксель арте, чтобы он выдавал более резкие границы? А если еще и модель нормальную сделать, так вообще красота будет, нет?