Как «оживлять» картины и улучшать видео, записанные в XIX веке: интервью с Денисом Ширяевым, специалистом по нейросетям​

Источник фото: <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fwww.instagram.com%2Fp%2FCCHCxboj_FI%2F&postId=192509" rel="nofollow noreferrer noopener" target="_blank">Instagram/Denis Shiryaev</a>
Источник фото: Instagram/Denis Shiryaev

Российский программист Денис Ширяев стал известен по всему миру после того, как с помощью нейросетей существенно улучшил качество одного из первых фильмов в истории, «Прибытия поезда». Видео, обработанное Ширяевым, набрало 4,2 миллиона просмотров — и после этого Ширяев начал улучшать и другие старые записи, а также «оживлять» картины. О том, как ему это удаётся и какой потенциал есть у нейросетей, с Ширяевым поговорил Александр Омолоев.

Денис, тебя в первую очередь знают по улучшению качества очень старых видео и «оживлению» картин с помощью нейросетей. Тема новая, и пока что трудно понять, как это всё происходит.

Расскажи, в чём именно заключается твоя работа? Ты учишь нейросети — но как тебе удаётся, допустим, подобрать 14 миллионов изображений для алгоритма DeOldify? Как понимаешь, какие изображения подойдут, а какие — нет?

Объясню весь процесс поэтапно. Изначально, три-четыре года назад, я не учил никакие нейросети и занимался довольно простыми вещами — увеличением в видео частоты кадров. Для этого я скачивал записи, разбирал их на кадры и вставлял между ними дополнительные кадры. Работа была сложной и долгой, потому что использовал я только один, публично доступный и медленный алгоритм.

Сейчас же вместо одного алгоритма я использую сразу три. Сначала улучшаю видео с помощью модифицированного DAIN — его оригинальная версия тоже работает достаточно медленно, потому я вместе с коллегами из Neural.Love доработал его и ускорил. DAIN увеличивает частоту кадров — например, в видео, снятом в 1906 году в Сан-Франциско, было 16 кадров в секунду, а DAIN увеличил это количество до 60, сделал его более плавным.

Видео, записанное на улицах Сан-Франциско в 1906 году и улучшенное Денисом Ширяевым с помощью нейросетей

После этого я повышаю разрешение видео до 4K, то есть до 3840x2160 пикселей с помощью улучшенной нейросети ESRGAN. Она сравнивает оригинальные изображения низкого качества с похожими изображениями высокого качества и на основе этого дорисовывает картинку. Миллионы изображений, о которых ты упомянул и на которых учится нейросеть, мы, конечно, подбираем не сами — всё это можно найти в датасетах (наборах данных — прим.ред.), которые публикуют другие участники сообщества machine learning.

Для колоризации и цветокоррекции используем алгоритм DeOldify — он классный, его здорово развило сообщество, так что его модифицировать не пришлось.

Наверное, это все секреты. Раньше я занимался этим только как хобби, но после того, как по сети широко разошлось улучшенное мной «Прибытие поезда» Люмьеров, стали поступать и коммерческие заказы.

Обработанное нейросетями «Прибытие поезда на вокзал в Ла-Сьота»

Из каких сфер к тебе обращаются?

Из кинематографа. После того, как по сети разошлось обновлённое «Прибытие поезда», ко мне обратилось 4-5 киностудий. В основном это люди, которые делают документалки, но не только — вот этот алгоритм, который добавляет дополнительные кадры между кадрами и тем самым увеличивает их частоту, востребован во всей киноиндустрии.

Интересно получается — в других интервью говорил, что при обновлении старых видео с помощью нейросетей нельзя быть уверенным в том, что алгоритмы воссоздали всё точно, потому что нейросети «додумывают» цвета или, допустим, вид лиц людей.

А для документалистов ведь важно изображение реальности, того, как всё было на самом деле. Как думаешь, зачем тогда использовать нейросети с их погрешностями в документалистике?

Как раз потому, что нейронки «допридумывают» что-то, я и не называю обновление старых фильмов или видеозаписей реставрацией, это просто улучшение. С другой стороны, есть фильм классный, They Shall Not Grow Old («Они никогда не станут старше» — фильм, сделанный из кадров хроники Первой мировой войны, которые колоризировали и к которым добавили звуковые эффекты — прим. ред.), который сделал...

Питер Джексон

Да, Питер Джексон. И считается ли его фильм документальным? Никто не знает. Джексон сделал в принципе то же самое, что я делаю: покрасил кадры, воссоздал звуки — только ручным трудом.

Всё зависит от того, какой хочется передать экспириенс тому, кто будет смотреть. Конечно, везде нужно говорить, что это улучшение, что это не реставрация, что всё могло быть немножко не так. И в архивах должна храниться настоящая история, но люди, которые любят смотреть, как будут выглядеть старые видео, если их сделать чуть более реальными, должны иметь возможность их посмотреть.

Главное, чтобы все понимали, что это не реставрация

Если говорить о художественном кино, о том же «Прибытии поезда», то с ним, по моему мнению, вообще можно делать что угодно. Никто не может запретить что-то делать с артом, потому что это искусство, и оно может принимать разные формы.

С документальными видео вроде записей начала XX века, сделанных на улицах разных городов, надо понимать — нейронка, конечно, «додумывает», но если в плане окраски это полное угадывание, то в плане увеличения количества фреймов и ресайза (изменения разрешения — прим. ред.) алгоритм добавляет «от себя» всего 5% данных. То есть реальные данные за этим всё-таки стоят. Тем не менее я всегда пишу в превью: «Not historical accurate», чтобы люди не ругались, не думали, что это магия. Это просто фан.

То есть у нейросетей всё-таки есть ограничения в использовании? Дальше фана это не уйдёт или есть возможность, что с помощью алгоритмов можно будет не только улучшать видео, но и создавать самостоятельный видеоарт?

Сложно сказать. Рассуждать о том, есть ли ограничения у нейросетей — это как отвечать на вопрос, есть ли ограничения у интернета. Нейронные сети — это технология, а как её применит человек, который с ней работает, зависит от его фантазии, изобретательности.

Сами по себе нейросети ограничены только вычислительными мощностями. GPT-3 (алгоритм, который может выполнять разные задания по написанию текста на основе всего нескольких примеров — прим. ред.), который сейчас победоносно идёт по планете, обладает сумасшедшими способностями, так как на него потратили миллионы долларов. Поэтому крупные компании, занимающиеся нейросетями, со временем смогут создавать более сложные вещи, чем улучшенные видео и текст.

Стихотворение в стиле американского поэта Уоллеса Стивенса, сгенерированное алгоритмом GPT-3
Стихотворение в стиле американского поэта Уоллеса Стивенса, сгенерированное алгоритмом GPT-3

В целом всё, что происходит сейчас с нейросетями — это только начало. Во-первых, потому, что порог входа в эту область сумасшедший, разобраться в нейросетях с нуля довольно сложно. И хотя сейчас появляются более дружелюбные способы запускать нейронки, самое ценное — это придумывать нейронки самому. К счастью, сообщество людей, которые занимаются machine learning, развивается.

Во-вторых, в айфонах уже есть специальные чипы для machine learning, а в ПК всё ещё нет. На компьютерах для этого используется графические процессоры, но это как стрелять из пушки по воробьям — не всегда все мощности ПК нужны для работы нейросетей.

Но повторю, что даже с учётом всех трудностей потенциал у работы с нейросетями практически безграничный. Разработка видеоигр, мне кажется, очень сильно поменяется благодаря нейросетям, ведь с их помощью можно генерировать и голоса, и персонажей, и текст. Хороший пример — AI Dungeon, целая игра на основе нейронки. Так что да, возможностей много, но к чему именно всё это приведёт, мы пока не знаем.

Сколько времени обычно занимает работа с нейросетями?

Зависит от задачи. После того, как я выпустил обновлённое «Прибытие поезда», я за неделю мог испытать двадцать или даже сорок новых алгоритмов. На «оживление» картин уходило по три месяца, потому что с ними нужно много работать вручную, рендерить, чтобы учесть все их сложные ракурсы и чтобы в итоге было красиво.

К тому же обучение нейросетей — это не основная моя работа, я не всегда ими занимаюсь. Иногда по вечерам ещё сижу играю в Rainbow Six, это тоже классно.

«Мона Лиза», которую Денис Ширяев «оживил» с помощью нейросетей
«Мона Лиза», которую Денис Ширяев «оживил» с помощью нейросетей

Как планируешь дальше использовать потенциал нейросетей? Будешь дальше улучшать видео и «оживлять» картины или есть уже более амбициозные задачи?

Пока я вместе с командой Neural.Love пытаюсь сделать сервис, который поможет работать с нейросетями каждому желающему, пробую заработать на этом денег, чтобы инвестировать их обратно, чтобы наши алгоритмы работали максимально эффективно и быстро. Ещё делаем нейронку для улучшения лиц в видео.

Так что да, продолжаю работать с нейронными сетями в видео. На рынке сейчас этим мало кто занимается, а спрос при этом большой — многие хотят вдохнуть вторую жизнь в записи того же VHS-формата. Дополнительно заниматься, скажем, нейросетями в разработке игр не собираюсь — это всё-таки не наш фокус, да и есть там, думаю, свои Денисы Ширяевы.

Есть ещё такой момент — я изначально работал с материалом очень низкого качества, а есть чувак, который из довольно хороших исходников повышает разрешение мемов до 4K. И выжимать максимум из плохих исходников, улучшать их так, чтобы они почти не отличались от видео, воссозданных из нормального материала — тоже для меня челлендж.

4444
16 комментариев

Только я не погромист :) в остальном все клево, спасибо

12
Ответить

Комментарий недоступен

Ответить

@Denis Shiryaev ты красавчик!

7
Ответить

💖

5
Ответить

Комментарий недоступен

4
Ответить

Мы Ширяева знаем в первую очередь, как шатателя ДТФ.Ждём "ожившие" кнопки "Популярное" и "Свежее" :)

Ответить

Комментарий недоступен

2
Ответить