Во-первых, это красиво 😁
А вообще это готовый кусок архитектуры для кучи задач:
Автоматический сбор датасетов: Запускаешь скрипт на ночь с промптом "angry cat", и к утру у тебя папка с тысячами идеальных вырезанных котов из прямого эфира для обучения других нейросетей.
Умный Block для ТВ: Нейросеть понимает по смыслу кадра, что начался рекламный блок, и сама глушит звук или переключает канал. Медиа-аналитика: Мониторинг того, сколько эфирного времени на разных каналах уделяется конкретным вещам (брендам, людям, событиям).
Привет! "Прикрутить переводчик" к англоязычной модели — это костыль, который удваивает время ответа (latency), жрет лишнюю память и ломает медицинский контекст (ошибка перевода = неправильный диагноз). Если бы ты прочитал пост, ты бы увидел, что я сшивал визуальный энкодер и языковую модель напрямую, чтобы она работала End-to-End.
Но раз тебе скучно, прямо сейчас я собираю новый пайплайн на базе Live-IPTV. ИИ будет в реальном времени мониторить десятки телеканалов, искать сюжеты по текстовому промпту (например "Покажи мне новости про космос") и на лету вырезать ведущих из кадра с помощью Semantic Segmentation. Посмотрим, какой "переводчик" поможет тебе сделать семантический поиск по живому видеопотоку 😉. Подписывайся, скоро выкачу демку!
класс!респект за опыт и то Вы поделились результатом но моя модель специлизированая только на снимках легких попробуй их загрузить и сравнить точность результатов
спасибо за реакцию и комент
я мучаюсь с этой проблемой и около нее пытаюсь живущую на пк вайфу запустить вся проблема в нарезке была на слои сгенерированой картинки
Привет! Абсолютно рабочая схема, классическая оптимизация в CV 🤝
По поводу CPU полностью согласен. Тот же rembg (U-2-Net) отлично бегает на процессоре, а вместо тяжелого базового SAM можно прикрутить MobileSAM или EdgeSAM — они вообще ничего не весят. Бутылочным горлышком останется только Диффузия для дорисовывания фона.
А вот насчет трюка «даунскейл картинки -> апскейл маски» есть один критичный нюанс именно для Live2D и спрайтов.
В анимации жизненно важна идеальная попиксельная точность (Alpha Matting), особенно на развевающихся волосах и полупрозрачных тканях. Если мы растянем (апскейлим) уменьшенную маску обратно на HD-оригинал, по краям неизбежно полезут «лесенки» (алиасинг) или мыло. При анимации это даст ужасный светящийся контур (halo effect) вокруг персонажа.
Чтобы этот трюк сработал без потери качества, придется поверх апскейла накидывать классические алгоритмы вроде Guided Filter или дополнительную легкую Matting-нейронку, чтобы "причесать" края.
Но как идея для ультра-лайт версии пайплайна, чтобы гонять локально на слабом офисном ноуте — это 100% мастхэв. Спасибо за годный технический тейк!
Мой скрипт как раз может стать основой для нормального пайплайна в Ren'Py без навыков Фотошопа. Смотри, как это делают сейчас в продвинутом AI-геймдеве:
Ты генерируешь идеальную "базу" (персонажа в нейтральной позе и простой одежде).
Прогоняешь через мой скрипт — он идеально отрезает фон и оставляет прозрачную PNG.
Секретный ингредиент: когда тебе нужно переодеть персонажа, ты больше не генерируешь картинку целиком! Ты берешь эту вырезанную базу, выделяешь зону одежды (тот же SAM из моего кода может дать тебе её маску) и закидываешь в Stable Diffusion Inpainting.
ИИ перерисует ТОЛЬКО одежду внутри маски. Лицо, прическа и поза останутся пиксель-в-пиксель старыми.
В Ren'Py это работает как часы: у тебя есть слой "База", и ты просто кодом накладываешь поверх неё прозрачные слои "Шмотка 1", "Эмоция 2".
Попробуй прогнать свою картинку из коммента через мой ноутбук (базовый фон он ей срежет чисто). Если будут затыки с настройкой ползунков под твои спрайты — пиши, подскажу!»
ok//в гуг колаб или кегл можно из репозитария код запустить приям ссылка в статье
Да, Центр диагностики и телемедицины ДЗМ (Москва) сейчас делает колоссальные вещи в этом направлении, они там лидеры. Частные стартапы (типа Цельс или Третье Мнение) тоже сильно пушат рынок.
Моя цель была немного другой — доказать, что базовая архитектура (Vision + Language) доступна не только корпорациям с бюджетами на кластеры A100, но и любому инженеру с ноутбуком и бесплатными ресурсами в Open Source.
Спасибо за наводку! Обязательно буду копать дальше. В планах расширить датасет и, возможно, попробовать сегментацию (чтобы ИИ не просто текст писал, а прямо на снимке красным обводил, где перелом или патология). Буду держать в курсе!
спасибо за фитбек и опыты)