Пост в блоге Содачи на DTF

Вадим, вот читал бы ты мой блог, а не Апанасика. Тогда с лёгкостью пояснил этому микропчелу, почему он несёт несусветную хуету. Да и заодно мог растоптать его эго, напомнив, откуда вообще в истории сжатия движущихся картинок появились эти самые «векторы движения».

И почему они уже как пару десятилетий задействованы в видеокодеках, а также используются курткой для генерации несуществующих до этого в природе промежуточных кадров, позволяя повысить значение счётчика этих самых кадров примерно раза так в два. Отчего бездари, в так любимом тобою Digital Foundry, кончают радугой коэффициентов, полученных путём дискретного косинусного преобразования.

Оратор из оригинального твита, который я нагло заскриншотила, пытается убедить окружающих, что игровые движки на выходе способны генерировать векторы движения, чего мы никак не сможем обнаружить в удалённых фильмах про Гарри Поттера из Кинопоиска. Хм, окей, довольно сильное заявление, как говорил классик. Поэтому я ненадолго позаимствовала одно из множества мемных видео с твоим участием у St. Spyro.

После чего открыла консоль на своей винде, указала путь к папке с FFmpeg и скормила ей следующий код:

ffmpeg -flags2 +export_mvs -i Vadim.mp4 -vf codecview=mv=pf+bf+bb output.mp4

Что это? Стрелочки, которые предсказывают будущее и демонстрируют нам, что будет делать Вадим в следующем кадре в уже записанном видео?

Магия, которая на википедии обозвана не иначе как блочной компенсацией движения. Уверена, что Апанасик уже объясняет вам в комментариях, как потомки уменьшали размер графических файлов при помощи джейпега и зачем исходное изображение разбивали на зоны т.е. буквально дискретизируя его. Заодно, надеюсь, он вам пояснит, что такое преобразование Фурье и почему .mp3 файл на вашем компудахтере звучит практически точно также как и его непрерывное частотное, физическое представление на виниловой пластинке.

Вы можете заметить, что до начала активного перемещения пикселей на видео векторы спокойно чилят на своём месте, но как только Вадим начал активно двигать конечностями, прогоняя с заднего фона своих бывших коллег, они все моментально устремились вслед за ними. Так и работает компенсация движения.

Для гуманитариев, по типу нашего любимого Вадима, может показаться, что векторы предсказывают (Predicted Frame) куда отправятся наши пиксели в следующем кадре. Но на самом деле любой видеокодек и так уже знает, что произойдёт в следующем кадре. По таком принципу работает любая записанная заранее видеоинформация. Поэтому в основе любого современного видеокодека лежит довольно простая концепция: нет никакой необходимости повторно сжимать повторяющуюся информацию между двумя соседними кадрами.

Но если нам этого недостаточно, если мы хотим увеличить кадровую частоту исходного видео с кинематографичных 23,976 до, допустим, Хоббитовских Джексона — 48.

Получается, нам теперь нужно ссылаться не только на прошлые кадры, но и на последующие (Bi-predictive Frame)? Которые, как вы можете понять, заранее известны. Так что большинство «умных» телевизоров довольно давно обзавелись функцией увеличения исходной частоты кадров. Только вот качество конечного материала оставляет желать лучшего. Но для решения этой проблемы не очень легко, но всё таки можно задействовать изобретённые сумрачными гениями — нейросетки.

Как вы помните из предыдущей моей лекции, на веки утерянной в моей голове. Нейросети, по сути своей, оперируют миллиардами аргументов, чтобы на выходе получить удовлетворяющий создателя результат. Неважно, что это — изображение или там текст, главное, чтобы конечный результат, при определённых условиях, можно было счесть правдоподобным, словно его действительно породило наделённое интеллектом живое существо.

И они (нейросетки) действительно в этом немного преуспели. Не зря же в последнее время всем так понравилась возможность одним кликом увеличить разрешение любого исходного изображения без потери информации. Правда, если исходное разрешение будет стремится к таковому на условной NES из восьмидесятых, конечный результат мало кого обрадует.

Потому что любая нейросеть, на данном этапе развития, по сути своей всегда оперирует текущей, доступной на данный момент информацией. Ничего нового она создать не способна, как и те, кто ею пользуется, отчего мы с вами наблюдаем все эти бесконечные подборки героев Гарри Поттера от Баленсиаги, балансирующие на грани зловещей долины. Как и DLSS от Куртки, всего лишь копирующая возможности Waifu2x.

Но с приходом DLSS версии 3.0, общественность нехило так возбудилась, смотря на счётчик частоты кадров в правом углу. Опять магия? Или нет…

Знакомо? Всё верно, никакого предсказания будущего в технологии генерации промежуточных кадров от куртки нет. Да, инженеры компании довели алгоритмы до пика текущего развития, но даже в datasheet они чётко дают понять, что точно также, как и в твоём дешёвом телевизоре от LG используют информацию о текущем и предыдущем кадре. Разве что только используя предварительно суперсэмплированные (ака Super Resolution) устаревшей версией технологии, кадры.

Почему же данная технология не нашла своего места в киноиндустрии, спросите вы? Да потому что качество промежуточных кадров всё ещё оставляет желать лучшего, сколько нейросетку не тренируй, на выходе в 99% случаев мы с вами получим хтонический пиздец.

И это при условии, что технология DLSS, так-то имеет все возможности заполучить в своё распоряжение промежуточные стадии генерации игрового кадра, по типу диффузных, нормалей, бликов, теней и прочих карт глубин. Последняя из которых кста, реально используются в DLSS, чем пока не может похваствовать потоковое видео, заранее загруженное на сервера Яндекса.