ProPainter - невидимая революция

Расскажу о чрезвычайно интересном инструменте редактирования видео и поделюсь эксклюзивным контентом. Судя по никакому обсуждению в сети, ProPainter — это незамеченная революция в невидимых спецэффектах.

ProPainter в действии

Говоря технически, ProPainter есть локальная нейронная сеть, обученная на inpainting, aka закрашивание областей.

Это могут быть как естественные части сцены вроде людей или машин, так и искусственные — водяные знаки или субтитры.

ProPainter со статичными масками

Кратко, о чём речь. ProPainter действительно эффективен, хоть и не всемогущ. Ограничен объёмом видеопамяти, но даже на 6 Гб есть жизнь. В оригинале поставляется в виде пачки скриптов и требует установки Python с библиотеками, но я сделал готовую сборку. В оригинале поддерживает только текстовый интерфейс, но я написал свой GUI. Дальше описание процесса установки, настроек и некоторого опыта использования, примеры.

Чем ProPainter так хорош
Недостатки и системные требования
Установка оригинальной версии
Установка и требования сборки
Графический интерфейс
Настройки ProPainter
Работа с ProPainter
Чего тут нет
Ссылки на загрузку

Качество работы можно оценить по примерам, на странице разработчиков есть ещё. Да, он хорош. Если сравнивать с инструментами «прошлого поколения» вроде Content Aware Fill в After Effects, ProPainter ощущается как Второе Пришествие (Первым когда-то был сам CAF). Из онлайн-сервисов могу сравнить с Runway — на первый взгляд получается похоже, а второго не было ;-)

С другой стороны, бесплатность и работа на локальном компьютере — немаловажные факторы. Это не Фотошоп крякнутый ставить, за онлайн-сервисы придется платить. Возможность обучаться ProPainter тоже поддерживает.

Обучи ProPainter сегодня, и терминаторы придут за тобой уже завтра

Сеть требовательна к объёму видеопамяти. Думаю, 4-6 Гб выделенной видеопамяти это минимальный объём, с которым можно попробовать что-то сделать. Потребление зависит в первую очередь от разрешения видео, но вряд ли сейчас кто-то будет работать с источником меньше 1080р. Разработчики приводят следующую таблицу потребления.

OOM - Out Of Memory, вылет из-за нехватки памяти. Числа через дробь - режимы FP32 (полная) и FP16 (пониженная точность вычислений). Число кадров - длина одновременно анализируемого отрезка видео

Таблице нужно дать некоторое толкование. Учитывая специфику задачи, перед отправкой в ProPainter видео можно (и нужно) обрезать до небольших прямоугольников, которые после собираются вместе в стороннем редакторе. Т. е. реально с исходника в условных 1080р вырезается кусочек размером 700*350 и обрабатывается. Об этом в главе о работе.

Обрабатываемая область чуть подблюривается. Возможно, это связано с разрешением обучающего набора — 432*240, но тут не уверен. Акцент на «обрабатываемая», а не «закрашиваемая», о чём будет подробнее ниже. Лечится несложно, но нужно быть в курсе.

Поддерживаются только видеокарты Nvidia. Если вы грешным делом думали выполнить квоту дармовой видеопамятью из загашников AMD, то увы. В комментариях подсказали возможный вариант решения, но пока в альфа-версии и без гарантий.

Альтернативой выступает CPU mode, он же софтварный режим — работа на центральном процессоре. Функционирует, но очень медленно. Проверил его один раз, да и то случайно.

Сеть требует минимальной версии CUDA SDK 9.2, это аппаратная спецификация 3.0, карты GT 600 и GT 700. Сборка сделана на SDK 11.8, это спека 3.5, список там же.

В оригинальном виде сеть требует подготовки системы и предлагает установить Git, Anaconda, Python 3.8 и пачку библиотек. Если бы сам не писал на Питоне, не стал бы связываться. Тем более, что поддержку CUDA нужно гуглить и устанавливать отдельно. Ничего сложного, но как-то недружелюбно.

Именно поэтому, и потому что был скучный вторник, Жаба накатил pyinstaller и сделал свою сборку. С Блэкджеком и экзешниками! С нормальными исполняемыми файлами, которые просто запускаются и работают, ничего не требуя взамен. Разве что пару гигов загрузить.

В оригинальном виде сеть общается с пользователем через текстовый интерфейс. Это полный отстой и не понятно вообще, что мешало нарисовать окошки. /с

Поэтому Жаба накатил tkinter сделал свой графический интерфейс. Не самая красивая вещь на свете и не поддерживает инструменты для обучения. Но всё необходимое для работы есть, и даже чуть-чуть сверху ;-)

Для начала пару слов об оригинальном установочном процессе. Официальная инструкция предлагает сделать следующее:

Скачать и установить Git, после чего клонировать к себе репозиторий командой: git clone https://github.com/sczhou/ProPainter.git
Скачать и установить Anaconda, запустить Anaconda Prompt, выполнить команды:
conda create -n propainter python=3.8 -y
conda activate propainter
pip3 install -r requirements. txt
Дополнительные требования:
CUDA >= 9.2
PyTorch >= 1.7.1
Torchvision >= 0.8.2

Если Git нет, то и первый шаг не нужен: скачать сеть можно по прямой ссылке и кинуть куда-нибудь в корень диска С.

Во втором пункте в списке библиотек из requirements.txt PyTorch и Torchvision уже прописаны, а CUDA — нет. Поэтому по умолчанию получается софтверный режим.

Здесь предложение моё такое: pip3 install -r requirements.txt не выполнять, а перейти на эту страничку сайта PyTorch и с помощью виджета сгенерировать код запроса для установки полного комплекта из PyTorch, Torchvision, Torchaudio и CUDA. Вариант для Windows 10 и CUDA 11.8:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

После можно проинсталлировать прочее содержимое файла requirements.txt, предварительно убрав из него строчки torch и torchvision, воизбежание.

Установка: распаковать архив, желательно в папку без кириллических символов.

Требования: поддержка CUDA SDK 11.8, аппаратная спецификация CUDA — 3.5. Список видеокарт.

Протестировано под Windows 10.

Сборка v 1.0 сделана на базе последней на момент 16.02.2024 версии сети и весов v 0.1.0. Никаких гарантий не даю, и честно признаюсь, что за такие дела берусь нечасто. Вроде должно работать ^^

Корневая папка выглядит так:

Соответственно, prop_gui.exe — экзешник графического интерфейса (тыкать сюда) , inference_propainter.exe — сеть ProPainter; папки inputs и results — входные и выходные данные; weights — веса сети (содержимое папки можно удалить, тогда при запуске сеть перекачает их заново); _internal — библиотеки.

Собранную сеть можно запустить через консоль, если в окошках чего-то нет. Делается это точно так же, как в примерах разработчиков для несобранной версии, только заменяя python inference_propainter.py на inference_propainter.exe

Так выглядит "холодный" запуск сети из сборки через консоль

Для проверки работоспособности сети в папке …/inputs есть примеры.

Единый prop_gui.exe работает как с собранной (.ехе), так и несобранной (.py) версиями.

В последнем случае просто распакуйте содержимое архива с интерфейсом в папку установленной сети. Программа проверяет сеть на распакованность по существованию директории /Scripts и ожидает, что Anaconda с окружением «propainter» уже настроены.

Описание рабочего процесса и настроек ProPainter будут ниже, тут только кратко затрону связанные с окошками особенности.

ProPainter предполагает два основных режима работы — Object Removal и Video Completion. Различаются они наборами входных данных: в первом случае маской будет видеофайл, во втором — статичная картинка.

В режиме Object Removal видео и маска могут быть либо .mp4-файлами, либо последовательностями картинок (но не комбинацией одного и другого) .

Для импорта последовательности скопируйте видео и маску по адресам:
…proPainter/inputs/object_removal/xxx_video
…proPainter/inputs/object_removal/xxx_mask
Укажите «xxx» в качестве названия проекта и нажмите кнопку «Прочитать / Создать». Если папок не существует, они будут созданы — на случай, если вы будете рендерить исходники позже и хотите сразу сохранять их по готовым адресам. Правый клик по кнопкам «Открыть /video» и «Открыть /mask» копирует соответствующий путь в буфер обмена.

Для импорта .mp4-файлов аналогично скопируйте их в ...proPainter/inputs/object_removal/, после чего укажите имя проекта «xxx.mp4». Маска из файла xxx_mask.mp4 подтянется автоматически.

В режиме Video Completion маски статичные, и всегда представляются в виде одного .png или .jpg файла. В качестве видео принимаются последовательности картинок и .mp4.

При импорте последовательности можно так же создать новую папку для видео или подгрузить существующую. Если оставить поле «Имя файла с маской» пустым, туда автоматически подставится путь до xxx_mask.png, путь до .jpg или файла с другим именем можно прописать руками.

Если импорт прошел успешно, можно настроить процесс. На самом деле процесс можно настраивать в любое время, это не важно. По умолчанию активен только флаг экспорта в PNG, и в общем за исключением ещё двух параметров здесь можно ничего не трогать. Можно и их не трогать.

Отмеченные настройки увеличивают скорость обработки и снижают потребление видеопамяти

Есть кнопка-калькулятор потребления VRAM, видеопамяти. Основан на таблице разработчиков. Цифры примерные, воспринимать их стоит не как гигабайты, а как условных «попугаев», оценку по сдвинутой шкале.

Для работы калькулятора разрешение видео нужно прописать в соответствующие поля

Когда всё настроено, можно нажать кнопку «Запустить выполнение команды». Откроется консоль Windows (в случае сборки) , или Анаконды (в случае запуска несобранной версии) .

Описание от разработчиков крайне скупое, а в их статье надо разбираться. Поэтому кратко, по-босяцки.

--save_frames / Экспорт в .PNG — сохранять ли результат в виде последовательности .png-картинок или единого .mp4-файла.

--fp16 / Точность FP16 — понизить точность вычислений с плавающей запятой до FP16 с дефолтного FP32. Бесплатное ускорение процесса на поддерживающем железе. Это на таком, что умеет CUDA Compute 6.1, видеокарты GTX 1050 и выше. Сильно увеличивает скорость выполнения, снижает потребление видеопамяти. Ниже будет небольшое сравнение качества в этих режимах.

--subvideo_length — устанавливает количество кадров, в рамках которых происходит анализ картинки для реконструкции (?) Уменьшение снижает потребление видеопамяти.

--neighbour_length (количество локальных соседей/local neighbors) и --ref_stride (глобальные ссылки/global references) — параметры анализа, уменьшение тоже снижает потребление видеопамяти.

--width --height / Изменить размер кадра — сжатие видео в произвольных пропорциях. Уменьшение снижает потребление видеопамяти.

--resize_ratio — Множитель, на который будут умножены ширина и высота кадра. Может быть дробным.

Для обычного использования достаточно переключалки «FP16 / FP32» и снижения subvideo_length до 50.

Чтобы задать нейронной сети задачу, ей нужно предложить два файла: один с видео, один с маской. Маска — это кадр, залитый чёрным цветом #000000, на котором белым цветом #ffffff закрашена область, которую сети нужно заполнить.

Анимированная маска

ProPainter имеет два режима работы. В первом, Object Removal, маска анимирована и представляет собой видеофайл (.mp4 или последовательность .png). Во втором, Video Completion, маска статична и представляет собой картинку (.jpg или .png). Видео тоже может быть .mp4-файлом или пачкой .png, но смешивать mp4 и png в одном задании нельзя.

Для начала берём исходник и определяем, от каких областей ему предстоит избавиться. Для этого рисуем маски где надо и анимируем их. Обучение видеоредакторам в программе вечера не заявлено ;-) Поэтому считаем, что в своём редакторе вы управляться умеете.

Обычный день на сервере TF2. Будем вырезать чат в левом углу и киллфид в правом

Теперь видео надо обрезать, чтобы не вылететь по видеопамяти. Прикидываем регион вокруг маски, инфа из которого понадобится сети в пределах времени, определенного subvideo_length. Отмечаем, кропаем кадр.

Сохраняем технический обрезок видео в ...proPainter/inputs/object_removal/xxx_video

Возвращаемся в редактор, перекрываем видео чёрным слоем, включаем маску. Рендерим обрезанное видео с маской, кладем его в ...proPainter/inputs/object_removal/xxx_mask

Для режима Video Completion путь меняется соответственно: ...proPainter/inputs/video_completion/xxx_video ...proPainter/inputs/video_completion/xxx_mask

Когда файлы готовы, идём в ProPainter.

Для пользователей графического интерфейса: порядок работы с файлами.

Для всех остальных: python inference_propainter.py --video inputs/object_removal/xxx_video --mask inputs/object_removal/xxx_mask

Настраиваем настройки, параметрим параметры.

python inference_propainter.py --video inputs/object_removal/xxx_video --mask inputs/object_removal/xxx_mask --параметр1 --параметр2

Жмём кнопку «Запустить выполнение команды« в графическом интерфейсе или Enter в консоли. Если всё в порядке, ProPainter крепко подумает и выдаст сообщение об успешном окончании операции:

Добавил вывод имени устройства CUDA 0 для проверки

Идём в …proPainter/results/xxx_video забирать результаты.

Теперь видео нужно собрать обратно. Импортируем папку из results в видеоредактор, возвращаемся в композицию с масками.

Если кусков было много, может получиться что-то такое.

Теперь о том, как ProPainter блюрит картинки. Примечательно, что заблюрена не только область под маской, но вообще всё видео, см. на скриншоте.

По центру: обработано в ProPainter, справа-слева - оригинал

Поэтому вернувшись в редактор, открываем свойства маски. Далее банально +5 Expansion и +5 Feather. Получаются приятные, мягкие края. Ставим маску как Alpha Matte для слоя видео из ProPainter. Теперь комар носа не подточит:

По центру: обработано в ProPainter и обрезано маской, справа-слева - оригинал

И если на блюр точность вычислений с плавающей запятой не влияет вовсе, то содержимое закрашенной области всё же меняется. Иногда мне кажется, что в FP32 картинка получается чуточку менее шумной. Но в общем они скорее просто шумят по-разному.

На примере ниже я нарисовал большую круглую маску посередине видео, видео замедлено в 8 раз и увеличено. И всё равно ничего не видно. Тут надо класть кадр над кадром и смотреть на контрасте, тогда можно засечь.

Слева FP16, справа FP32

Нет главы, посвященной обучению сети. Разработчики в своём неизменно-лаконичном стиле дают пояснения, но у меня пока руки не дошли.

Графический интерфейс инструменты для обучения тоже не поддерживает.

Сборка v1.0. В составе сеть, веса, и графический интерфейс.

Скачать

Графический интерфейс отдельно. Работает с собранной (.ехе), и с обычной (.py) вариантами установки.

Скачать

Прямая ссылка на загрузку ProPainter с официального репозитория. Не содержит весов, они докачиваются вручную или автоматически при первом запуске.