Благо, даже в карту нижнего ценового сегмента RTX 3060 какие-то святые люди в Nvidia решили воткнуть 12Gb, дай им бог здоровья и толстых румяных детей штук по десять каждому.
К чему я все это. Stable Diffusion за прошедшие полгода обросло инструментами, позволяющими работать с гораздо меньшей степенью рандома, чем было в начале, когда ты генерировал 100500 картинок, лепил туда безумные зубодробительные запросы, гуля и вспоминая всевозможных художников, добавляя лольно смотрящийся мусор "8k, 4k, ultra hi-resolution, trending awards", прежде чем найдешь что-то полезное, примерно типа того, что ты себе в начале представлял в голове.
Сегодня, кстати, выкатили еще один инструмент, позволяющий генерировать тепловую карту на картинке с результатом, показывающий, на какую деталь и насколько сильно влияло каждое слово в запросе. Новый инструмент для исследователей, который, если допилят до ума, станет отправной точкой для еще одной интересной техники.
На картинке с роботом я специально выставил параметры, дающие возможность очень сильно отступать от изначальной картинки. Попробуем прикрутить ей фантазию, чтобы она сильно не эцсамое... И ничего, тоже норм. Уже не так роботизировано, но тоже "модэрн" и вся мебель вернулась на задуманные места.
3. Можно было бы использовать еще одну новую технику InstructPix2Pix, которая понимает человеческую речь и которой можно написать "сделай шкаф черным" и она сделает. Но нам надо тестировать LoRa, поэтому мы взамен лезем в Img2img, скармливаем эту картинку, пишем запрос, в котором упоминаем, что мебель должна быть хайтечная, подключаем нашу свежесозданную LoRa. Зачем? Мне стало интересно, как стиль деталей из роботов будет превращен в мебельную фурнитуру. И шо бы вы таки сэбэ думали? Оно таки прэвращает!
2. В GUI Stable Diffusion используем опубликованную ранее модель со специальным слоем, понимающим глубину, и просим его сделать нам из этого комнату. Всратый градиент на стенах, который я не стал зашумлять и блюрить, дал модели идею раскрасить стенку полосочками. А нам так и надо! (гнусавым голосом). Это depth2img.
Инструментарий реально всемогущий, если им заниматься, а не готовые модельки на бустях у мошенников покупать :)
Вот, любопытства ради цепочка изображений, демонстрирующая техники. Некоторое время назад я тренировал свою робо-модель. Есть Robo Diffusion, он классный, но хорош он скорее для крупных планов голов роботов, а я тренировал на механоидах в полный рост с упором на однородный фон, чтобы можно было в концепт-артах использовать. (Выложил на civitai - itrobo2022, если надо кому-то).
Сегодня вычленил LoRa из нее, что дает возможность использовать совместно с другими моделями в качестве подключаемого слоя.
А теперь для фана применим не по назначению, чисто поиграться.
1. В 3d-редакторе за минуту делаем из кубиков примитивную сцену комнаты и рендерим в карту глубины.
На ютубе сотни толковых контентмейкеров по теме с на порядок более полезной информацией и при этом не выделывающиеся как монгол с долларом в борделе. То, что большая их часть на английском элементарно решается включением субтитров с автопереводом на русский.
Вот, например, полезный энтузиаст из Турции: https://www.youtube.com/@SECourses
Копает в тему глубоко, делает эксперименты сам, показывает и рассказывает, что, куда и почему именно такие цифры, а не другие. (я его на реддите периодически простебываю, что надо иногда спать)
Кто мешает с civitai.com, куда все попадает, зарегаться и качать себе "модельки". Ну, и huggingface.co естественно. Все, что надо там есть.
Я искренне считаю, что ТАК - НЕ НАДО. Какой такой паттерн может в принципе быть в проходимце и лжеце, какая целеустремленность, о каком желении навести порядок речь, что за казуистические набросы. Путинистов зачем-то еще приплели и теоретиков заговора.
Умудряетесь без тошноты смотреть на этого Хачатура? У него же нарциссизм в терминальной стадии. Конкретно здесь этот крысенок намерджил чужих моделей, например накоторые запросы дают практически допиксельно идентичные с Protogen2.2 результаты, но откровенно врет о том, что создал все сам, называя остальных (включая protogen) отстоем. Полчаса видео "я-я-я-я-я-я-моё-моя-я", "я сделал", "я добился чтобы она то-то и то-то", "моя лучше" и т.п. вранье. Подписота нализывает ему в камментах, и у тамбовского ИПшника, кажется, кукуху сорвало, зовет себя "богом prompt'ов" (не шутка) и уже на бусти текстовые запросы за подписку продает, лол. А, да, комментарии на ютубе он трет, если не нализываешь.
Бонус-трек. "Незнайка и Пончик тырят флаг у Нила Армстронга" :) Иллюстрацию Борисенко превратил за несколько шагов в объемные фигуры, лица героям книжки сохранил оригинальные, для узнаваемости.